AI简介
这是一本以Python语言为基础,系统讲解网络爬虫核心技术、框架与项目实战的综合性教程。本书首先介绍了网络爬虫的定义和作用,使读者对网络爬虫有一个基本的概念和认识。接着,书中详细讲解了网络爬虫的组成,包括控制节点、爬虫节点和资源库,以及网络爬虫的类型,包括通用网络爬虫、聚焦网络爬虫等。
书中强调了网页更新策略的重要性,并详细介绍了网页更新策略的算法思想,以提高爬虫执行效率,使执行逻辑更合理。此外,书中还介绍了爬虫框架基本概念,包括Scrapy框架、Crawley框架、Portia框架、newspaper框架、python-goose框架等,并详细介绍了Scrapy框架的安装流程。
书中还讲解了Urllib库的使用,包括如何操作URL,处理URL编码问题,以及处理程序异常。同时,书中还介绍了网络爬虫的编程语言选择,包括Python、Java、C++等,并解释了选择不同编程语言的原因。
此外,书中还介绍了正则表达式简介,包括正则表达式的基础知识,如原子、元字符、模式修正符、贪婪模式与懒惰模式等,以及正则表达式在Python中的应用。书中还详细介绍了Scrapy核心架构概述,包括Scr