Python网络爬虫入门到实战

Python网络爬虫入门到实战

评分

★★★★★

ISBN

9787111730521

出版社

机械工业出版社 2023-07-01出版

分类

编程设计

内容简介
本书介绍了Python3网络爬虫的常见技术。首先介绍了网页的基础知识,然后介绍了urllib、Requests请求库以及XPath、Beautiful Soup等解析库,接着介绍了selenium对动态网站的爬取和Scrapy爬虫框架,最后介绍了Linux基础,便于读者自主部署编写好的爬虫脚本。本书所有代码和相关素材可以到GitHub下载获取,地址为https://github.com/sfvsfv/Crawer。 本书主要面向对网络爬虫感兴趣的初学者。
AI简介
这是一本面向初学者的Python网络爬虫技术书籍。全书从网页基础知识出发,深入讲解了urllib、Requests请求库以及XPath、Beautiful Soup等解析库,并在此基础上进一步介绍了selenium对动态网站的爬取和Scrapy爬虫框架,最后还介绍了Linux基础,便于读者自主部署编写好的爬虫脚本。 全书以Python 3为主要编程语言,从网页的基础知识出发,详细讲解了HTML、CSS和JS的基本概念和作用,以及如何使用CSS选择器、属性和值来精确地选取HTML元素,并对其进行样式设置。书中还详细介绍了如何使用requests库进行网络请求和数据获取,以及如何使用Beautiful Soup和lxml等解析库来解析HTML和XML文件。 在介绍了基本的网页构建和解析技术后,书中进一步介绍了selenium对动态网站的爬取和Scrapy爬虫框架。selenium可以帮助我们模拟浏览器行为,自动完成网页的登录、表单提交等操作,而Scrapy则是一个强大的网络爬虫框架,可以高效地抓取网页数据。 最后,书中还介绍了Linux基础,包括如何安装虚拟机、使用MySQL数据库存
阅读/下载地址