内容简介
本书共分3部分,主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。本书适合有一定Python编程基础,且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。
AI简介
这是一本全面介绍如何使用Python处理大型数据集的指南。全书分为三个部分,首先介绍了map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。接着,作者详细介绍了Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。最后,本书重点介绍了云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。
在书中,作者详细阐述了map和reduce编程风格,这种编程方式将问题分解为两个主要部分:map任务和reduce任务。map任务负责将输入数据转换成另一种形式,而reduce任务则负责将map任务产生的数据合并成一个结果。这种编程方式的核心思想是,通过将大问题分解成小问题,我们可以更有效地处理大数据集。而且,由于map和reduce任务可以并行执行,所以这种编程方式也可以充分利用计