自己动手写搜索引擎

自己动手写搜索引擎

评分

★★★★★

ISBN

9787121096402

出版社

电子工业出版社 2009-12-01出版

作者

罗刚

分类

编程设计

内容简介
本书是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。本书全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。
AI简介
这是一本全方位展现出一个商用级别的Lucene搜索解决方案的实用指南。书中内容涵盖Java开发环境搭建,30分钟快速实现搜索引擎搭建,解决内存限制的方法,网络蜘蛛的设计与实现,不同版本的文档处理,中文文档编码识别,文档文本内容提取技术,中文分词概念及重要性,Lucene中文分词技术详解,文档排重的必要性,自动分类程序框架设计,设计索引库结构,搜索页面设计,Lucene搜索接口代码编写,竞价排名的概念和意义,Web图分析的概念和意义等关键内容点。 书中详细介绍了Java开发环境搭建,包括准备Java开发环境,编写代码,以及发布运行。30分钟快速实现搜索引擎搭建则主要涉及准备工作环境、编写代码和发布运行三个步骤。解决内存限制的方法主要应用于网络蜘蛛的设计和实现,包括使用数据库进行存储,使用布隆过滤器判断URL地址是否已经抓取过,以及使用Berkeley DB来实现Todo列表和多列索引等方法。 书中还详细介绍了网络蜘蛛的设计与实现,包括网络蜘蛛的基本功能、实现方式、改进方法以及应用实例。不同版本的文档处理是搜索引擎在处理文档时必须面对的一个问题,需要针对不同的文档格式和版本进行相应的处
阅读/下载地址