内容简介
《零基础学Python网络爬虫》(升级版)一书适用于 Python 爬虫入门学习的读者,书中全面介绍了使用 Python进行网络爬虫开发的入门必备知识,本书从学习与应用的角度出发,帮助读者快速掌握网络爬虫的各项技能。全书共 17 章,包括初识网络爬虫、了解 Web 前端、多种网络请求模块、网页数据的多种解析方式、爬取动态渲染的信息、多线程与多进程爬虫、数据处理与存储、App 抓包工具、识别验证码、Scrapy 爬虫框架、Scrapy-Redis 分布式爬虫以及可视化爬虫:数据侦探项目。本书侧重爬虫技术的实战应用,包含典型应用示例、实用案例和项目,力求为读者打造一本学习入门 + 应用 + 实践一体化的精彩的 Python 网络爬虫图书。
AI简介
这是一本面向Python爬虫入门学习者的书籍。书中全面介绍了使用Python进行网络爬虫开发的入门必备知识,从学习与应用的角度出发,帮助读者快速掌握网络爬虫的各项技能。全书共 17 章,包括初识网络爬虫、了解Web前端、多种网络请求模块、网页数据的多种解析方式、爬取动态渲染的信息、多线程与多进程爬虫、数据处理与存储、App抓包工具、识别验证码、Scrapy爬虫框架、Scrapy-Redis分布式爬虫以及可视化爬虫:数据侦探项目。
书中详细介绍了网络爬虫的工作原理,包括网络爬虫的基本工作流程,Scrapy爬虫框架的构成以及网络爬虫的分类。书中还介绍了pandas数据结构,包括Series和DataFrame的使用,以及如何在数据处理中处理NaN数据和重复数据。此外,书中还介绍了SQLite数据库的概念和特性,以及如何在Python中使用SQLite数据库。
书中还介绍了XPath概述,以及如何使用XPath在HTML文件或代码中进行可用信息的抓取。书中还介绍了存取CSV文件的方法,以及如何使用pandas模块实现CSV文件的存储和读取。此外,书中还介绍了验证码的概念和类型,以及如何使