精通Python网络爬虫:核心技术、框架与项目实战

精通Python网络爬虫:核心技术、框架与项目实战

评分

★★★★★

ISBN

9787111562085

出版社

机械工业出版社 2017-03-01出版

作者

韦玮

内容简介
随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。在大数据时代,聚焦网络爬虫的应用需求越来越大。本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。
AI简介
这是一本以Python语言为基础,系统讲解网络爬虫核心技术、框架与项目实战的综合性教程。本书首先介绍了网络爬虫的定义和作用,使读者对网络爬虫有一个基本的概念和认识。接着,书中详细讲解了网络爬虫的组成,包括控制节点、爬虫节点和资源库,以及网络爬虫的类型,包括通用网络爬虫、聚焦网络爬虫等。 书中强调了网页更新策略的重要性,并详细介绍了网页更新策略的算法思想,以提高爬虫执行效率,使执行逻辑更合理。此外,书中还介绍了爬虫框架基本概念,包括Scrapy框架、Crawley框架、Portia框架、newspaper框架、python-goose框架等,并详细介绍了Scrapy框架的安装流程。 书中还讲解了Urllib库的使用,包括如何操作URL,处理URL编码问题,以及处理程序异常。同时,书中还介绍了网络爬虫的编程语言选择,包括Python、Java、C++等,并解释了选择不同编程语言的原因。 此外,书中还介绍了正则表达式简介,包括正则表达式的基础知识,如原子、元字符、模式修正符、贪婪模式与懒惰模式等,以及正则表达式在Python中的应用。书中还详细介绍了Scrapy核心架构概述,包括Scr
阅读/下载地址