内容简介
Apache Spark is an open source parallel-processing framework that has been around for quite some time now. One of the many uses of Apache Spark is for data analytics applications across clustered computers. In this book, you will not only learn how to use Spark and the Python API to create high-performance analytics with big data, but also discover techniques for testing, immunizing, and parallelizing Spark jobs.You will learn how to source data from all popular data hosting platforms, including
AI简介
这是一本关于如何使用Apache Spark框架和Python API进行大数据分析的实用指南。这本书详细介绍了PySpark的安装与设置,以及Spark程序的核心概念,如SparkContext和SparkConf。此外,书中还涵盖了RDD操作基础,如map函数、filter函数和collect函数等基本操作,以及如何使用Spark SQL进行数据查询和处理。
书中还深入讲解了如何拆分数据集并创建新的组合,以及如何使用MLlib计算数据集统计信息。这些内容可以帮助读者更好地理解数据集的特征,并为后续的机器学习模型构建提供基础。
此外,书中还详细介绍了如何使用Spark DSL构建查询,以及如何检测shuffle的方法。这些内容可以帮助读者更有效地处理和分析数据。
在数据聚合与报告生成方面,书中讲解了如何使用map和reduce计算平均值,以及如何使用数据透视表进行汇总。这些内容可以帮助读者将大量数据汇总和总结成有用的报告。
在测试方面,书中讲解了如何分离逻辑与Spark引擎的测试方法,以及如何利用部分函数提供测试数据。这些内容可以帮助读者更有效地测试Spark应用程序,并提高