内容简介
本书是一本系统、全面地介绍Python网络爬虫的实战宝典。作者融合自己丰富的工程实践经验,紧密结合演示应用案例,内容覆盖了几乎所有网络爬虫涉及的核心技术。在内容编排上,一步步地剖析算法背后的概念与原理,提供大量简洁的代码实现,助你从零基础开始编程实现深度学习算法。全书按照学习爬虫所涉及的核心技术从易到难,再到应用的顺序分为14章。第1章介绍Python的安装配置和基础语法。第2章介绍爬虫类型、抓取策略以及网络基础知识。第3章介绍Python常用库。第4章介绍正则表达式的语法、匹配规则。第5章讲解PIL库、Tesseract库和TensorFlow库的语法、类型和识别方法。第6章介绍抓包利器Fiddler。第7章介绍数据存储。第8章介绍Scrapy爬虫框架。第9章介绍多线程爬虫。第10章介绍动态网页爬虫。第11章介绍分布式爬虫。第12章介绍电商网站商品信息爬虫项目。第13章介绍生活娱乐点评类信息爬虫。第14章介绍图片信息类爬虫项目。
AI简介
这是一本系统、全面地介绍Python网络爬虫的实战宝典。书中内容覆盖了几乎所有网络爬虫涉及的核心技术,包括Python的安装配置和基础语法,爬虫类型、抓取策略以及网络基础知识,Python常用库,正则表达式的语法、匹配规则,PIL库、Tesseract库和TensorFlow库的语法、类型和识别方法,抓包利器Fiddler,数据存储,Scrapy爬虫框架,多线程爬虫,动态网页爬虫,分布式爬虫,电商网站商品信息爬虫项目,生活娱乐点评类信息爬虫项目,图片信息类爬虫项目等。
书中详细介绍了Python强大的标准库和第三方库,包括math、random、datetime、os、threading等标准库,以及urllib、request、lxml等第三方库。这些库为Python程序员提供了强大的系统级功能支持,使得Python程序员可以轻松地实现各种复杂的计算和数据处理任务。
书中还详细介绍了数据存储至MongoDB数据库,包括数据的基本存储,数据存储至MySQL数据库,数据存储至XML等。这些存储方式适用于各种大数据场景,特别是对于需要快速读写、易于扩展的数据存储需求。
书中还详细介绍