内容简介
本书分为三部分,其中第1~4章是Python基础,这个部分会介绍阅读本书所必须掌握的Python知识,但并不会包含很复杂的编程知识,比如面向对象编程就不是必要的,因为Python支持过程式编程,可以直接编写函数,使用这种方式编程更适合教学,因为所有的执行步骤都是线性的,方便逐步讲解。第5~7章讲解的是Python直接提供的数据处理工具,这些工具包括一些易用的数据结构、标准库和第三方工具。学习这些工具可以让我们快速地实现某些简单的算法,而不用花费大量的时间“重复造轮子”,Python处理数据的高效性在此处将体现得淋漓尽致。第8~12章是一些实际的案例,将会涉及Python主要擅长的几个领域:统计、爬虫、科学计算、Hadoop&Spark中的集成、图计算等。最后的三个附录分别介绍了关于Python的一些扩展知识,比如如何编写同时兼容Python2和Python3的代码,如何安装完整Python开发环境,以及一些常用的Python技巧,如处理时间、文件I/O等。
AI简介
这是一本以Python语言为基础,详细讲解数据科学实践的书籍。本书内容分为三部分,第一部分主要介绍了Python的基本知识和特性,包括Python的版本选择、基本语法、函数和异常处理、字符串处理等。这部分内容对于初学者来说非常重要,它可以帮助读者理解Python编程的基本概念和技巧。
第二部分主要介绍了Python处理数据的基本工具,包括容器和collections、Python标准库以及Python处理外部数据的工具。这些工具可以帮助读者快速地实现某些简单的算法,而不用花费大量的时间“重复造轮子”。
第三部分则是一些实际的案例,涉及Python主要擅长的几个领域:统计、爬虫、科学计算、Hadoop&Spark中的集成、图计算等。这些案例可以帮助读者更好地理解和应用Python在数据科学中的应用。
在本书中,作者还详细介绍了字符集与编码原理,网络资源定位与URL,网页结构与HTML解析,Hadoop的MapReduce计算模型,Spark内存型大数据处理工具,图论基础与网络表示,利用NetworkX进行社区发现与影响力分析等知识点,这些知识点都是数据科学中不可或缺的一部分。