网络爬虫开发

评分

★★★★★

ISBN

9787313293268

出版社

上海交通大学出版社 2023-11-01出版

作者

纪娜

分类

编程设计

内容简介

本书共有八个项目，围绕网络爬虫三部曲“爬取—解析—存储”较为全面地介绍关于不同场景下利用Python爬取网络数据的基础知识和方法，让读者通过编写简单的静态爬虫和动态爬虫，使用Scrapy爬虫框架完成对爬虫理论和实践技能的学习。内容分为基础知识篇、中阶知识篇和实战篇。项目一至项目三介绍爬虫的基本概念、网页基础知识和Python基本语法等；项目四和项目五利用实例演示介绍有关爬取库、解析库等爬虫中阶知识；项目六至项目八则是实战篇，主要介绍数据存储的实例和利用动态网页爬取数据的综合案例，再次完整展现爬虫三部曲“爬取—解析—存储”，以及Scrapy爬虫框架的概念和实施。本书面向对网络爬虫技术感兴趣的读者，介绍了使用Python语言编写爬虫的各种技巧和方法，可供大数据技术等相关专业的学生参考使用，也可作为大数据技术爱好者的自学用书。

AI简介

这是一本围绕网络爬虫三部曲“爬取—解析—存储”较为全面地介绍关于不同场景下利用Python爬取网络数据的基础知识和方法的著作。这本书以网络爬虫的基础知识和理论为起点，深入讲解了网络爬虫的定义、用途、分类、实现原理以及开发过程中涉及的相关技术。书中详细解释了HTTP和HTTPS两种协议的区别，以及如何使用Python语言进行网络爬虫的开发。此外，本书还详细介绍了Python语言特点和应用，包括Python语言的基础语法、常用语句、字符串、正则表达式、基础数据结构、函数以及Python在多个领域的应用。书中还讲解了如何使用lxml进行web信息提取，包括使用XPath、树的遍历函数和CSS选择器定位节点，以及使用lxml库、BeautifulSoup库和PyQuery库进行网页信息的提取。在实战篇中，本书主要介绍了数据存储的实例和利用动态网页爬取数据的综合案例。书中讲解了TXT文件存储与检索，CSV文件存储与读取，以及如何使用AJAX进行网页局部更新。此外，还讲解了如何使用Selenium进行网页自动化测试和开发，以及如何使用Scrapy框架进行网络数据的抓取和处理。

推荐影视

阅读/下载地址

微信读书