内容简介
This book is a practical, handson guide that takes you through the techniques of web scraping using Beautiful Soup.Getting Started with Beautiful Soup is great for anybody who is interested in website scraping and extracting information. However, a basic knowledge of Python, HTML tags, and CSS is required for better understanding.
AI简介
这是一本实践性很强的编程设计书籍,以Beautiful Soup工具为基础,详细介绍了如何对HTML和XML文档进行解析、搜索、导航和修改。这本书适合对网站抓取和信息提取感兴趣的人,同时要求读者具备一定的Python、HTML标签和CSS知识。
书籍的内容主要围绕Beautiful Soup的使用展开,首先介绍了如何安装Beautiful Soup,并如何创建Beautiful Soup对象。接着,深入探讨了Beautiful Soup的搜索方法,包括如何基于标签名称、标签属性值、文档内的文本以及正则表达式进行搜索。书中还详细介绍了Beautiful Soup的导航功能,包括如何使用各种导航属性来定位和遍历HTML文档。
在书中,作者还讲解了如何在HTML文档中添加新标签,以及如何使用Beautiful Soup从网站如packtpub.com和Amazon获取书籍列表和售价。此外,书中还详细介绍了Beautiful Soup的编码支持和输出格式,以及如何通过NavigableString对象处理文档中的文本内容。
在书籍的最后,作者通过一个实战案例,展示了如何使用Beautif