搜索引擎技术与发展

搜索引擎技术与发展

评分

★★★★★

ISBN

9787121398032

出版社

电子工业出版社 2020-10-01出版

作者

罗刚

分类

理论知识

内容简介
本书主要介绍如何使用Java语言开发搜索引擎,包括搜索引擎技术入门,使用Java开发网络爬虫,实现从文档中提取索引内容,中文分词的原理与实现,在Linux服务器端开发Solr应用,Spring Boot微服务框架实现的后端,以及React框架实现的前端等内容。第1章主要介绍各种类型的搜索引擎和开发搜索引擎可以借助的软件工具;第2章主要介绍网络爬虫开发和数据存储;第3章主要介绍从HTML文件中提取文本,以及从PDF、Word等非HTML文件中提取文本;第4章主要介绍Lucene中的中文分析器的原理与实现;第5章主要介绍Solr索引库的创建与维护,以及Solr的查询解析器;第6章主要介绍Web方式搜索结果界面的实现;第7章主要介绍如何使用SolrCloud实现分布式搜索。
AI简介
这是一本详细介绍如何使用Java语言开发搜索引擎的书籍,涵盖了从搜索引擎技术入门到高级应用的全部内容。书中不仅详细介绍了各种类型的搜索引擎和开发搜索引擎可以借助的软件工具,还详细讲解了如何使用Java开发网络爬虫,如何实现从文档中提取索引内容,中文分词的原理与实现,在Linux服务器端开发Solr应用,Spring Boot微服务框架实现的后端,以及React框架实现的前端等内容。 书中首先介绍了搜索引擎类型及软件工具,包括搜索引擎的基本概念、工作原理以及常用的搜索引擎软件工具。接着,作者详细讲解了网络爬虫与数据存储,包括如何编写网络爬虫程序以及如何有效地存储和处理爬取到的数据。在文档索引提取技术方面,作者深入讲解了如何从各种数据源中提取出用于建立索引的信息,并介绍了相似文档搜索的相关技术。 在中文分词技术与应用方面,作者详细介绍了中文分词的基本原理、常用的中文分词方法以及如何在Lucene搜索引擎中实现中文分词。在维护Solr核方面,作者详细讲解了如何创建和维护索引库,如何定义索引库的字段类型,如何使用分析器分析文本,如何维护列类型以及如何使用索引查看工具。 在Web开发方面,
阅读/下载地址