网络数据采集技术:Java网络爬虫实战

网络数据采集技术:Java网络爬虫实战

评分

★★★★★

ISBN

9787121376078

出版社

电子工业出版社 2020-01-01出版

作者

钱洋

分类

编程设计

内容简介
本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。
AI简介
这是一本全面而深入的Java网络爬虫实战教程。该书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。书中选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,该书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。 本书内容详实,从网络爬虫的基本原理与应用场景开始,逐步深入,涵盖了网络爬虫的分类、流程、采集策略,以及学习网络爬虫的建议。接着,该书详细介绍了Eclipse的下载与配置,以及Java基本数据类型,为Java网络爬虫的开发奠定了坚实的基础。在HTTP协议基础与网络抓包方面,该书深入讲解了HTTP协议,以及网络抓包技术,帮助读者更好地理解和分析网络请求和响应。 在网页内容获取方面,该书详细介绍了Jsoup和HttpClient的使用,以及URLConnection与HttpURLConnection的基础,为网页内容的获取提供了丰富的方法。在网页内容解析方面,该书
阅读/下载地址