自己动手写网络爬虫(修订版)

自己动手写网络爬虫(修订版)

评分

★★★★★

ISBN

9787302442646

出版社

清华大学出版社 2016-09-01出版

作者

罗刚

分类

编程设计

内容简介
本书介绍了网络爬虫开发中的关键问题与Java实现。主要包括从互联网获取信息与提取信息和对Web信息挖掘等内容。本书在介绍基本原理的同时注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。本书适用于有Java程序设计基础的开发人员。同时也可以作为计算机相关专业本科生或研究生的参考教程。
AI简介
这是一本深入探讨网络爬虫开发关键问题与Java实现的实用书籍。书中首先从自己动手抓取数据入手,详细介绍了网络爬虫Java实现,包括宽度优先遍历算法,带偏好的爬虫,以及如何使用多线程技术提升爬虫性能等。此外,书中还深入剖析了分布式爬虫的设计目的和优势,以及如何通过分布式存储来解决负载平衡问题,提高数据存储的效率和安全性。 书中进一步探讨了自己动手抽取Web内容,包括如何利用Jsoup抽取HTML正文,如何从PDF、Office文档和RTF文件中抽取信息,以及如何去掉网页中的噪声。此外,书中还详细介绍了多媒体抽取的方法,包括如何抽取视频和音频内容。 在自己动手挖掘Web数据部分,书中讲解了如何分析Web图,包括如何利用PageRank算法和HITS算法计算网页的重要性,以及如何去掉重复的文档。此外,书中还介绍了网页分类与聚类的应用,包括如何使用支持向量机(SVM) 和AdaBoost算法对网页进行分类,以及如何使用DBSCAN算法进行网页聚类。 在书的最后,作者还介绍了MP3文件结构,以及如何使用Java音频抽取技术来读取MP3文件中的各种信息。此外,书中还探讨了噪声对网页检索的影响
阅读/下载地址