AI简介
这是一本面向初学者的Python网络爬虫技术书籍。全书从网页基础知识出发,深入讲解了urllib、Requests请求库以及XPath、Beautiful Soup等解析库,并在此基础上进一步介绍了selenium对动态网站的爬取和Scrapy爬虫框架,最后还介绍了Linux基础,便于读者自主部署编写好的爬虫脚本。
全书以Python 3为主要编程语言,从网页的基础知识出发,详细讲解了HTML、CSS和JS的基本概念和作用,以及如何使用CSS选择器、属性和值来精确地选取HTML元素,并对其进行样式设置。书中还详细介绍了如何使用requests库进行网络请求和数据获取,以及如何使用Beautiful Soup和lxml等解析库来解析HTML和XML文件。
在介绍了基本的网页构建和解析技术后,书中进一步介绍了selenium对动态网站的爬取和Scrapy爬虫框架。selenium可以帮助我们模拟浏览器行为,自动完成网页的登录、表单提交等操作,而Scrapy则是一个强大的网络爬虫框架,可以高效地抓取网页数据。
最后,书中还介绍了Linux基础,包括如何安装虚拟机、使用MySQL数据库存