内容简介
If you are a data scientist or data analyst who wants to learn Big Data processing using Apache Spark and Python, this book is for you. If you have some programming experience in Python, and want to learn how to process large amounts of data using Apache Spark, Frank Kane’s Taming Big Data with Apache Spark and Python will also help you.
AI简介
这是一本详尽且全面地介绍如何使用Apache Spark和Python处理大数据的书籍。书中不仅涵盖了Spark的安装与基础示例,还详细介绍了Spark的基本概念、特点以及学习方法。此外,书中还详细讲解了Spark SQL的基本概念,GraphX的功能和适用场景,以及如何使用Python编写Spark程序等高级主题。
书中首先介绍了Spark的安装与基础示例,包括如何下载、配置环境变量和启动Spark Shell,以及Spark的基础知识、简单示例和高级示例。书中还详细介绍了Spark的基本概念,如RDD(弹性分布式数据集)的概念,Spark的容错性和分布式特性,以及如何使用Python编写Spark程序。
接着,书中深入讲解了Spark SQL的基本概念,包括DataFrames和DataSets的概念,以及如何使用Spark SQL处理结构化数据。书中还介绍了GraphX的功能和适用场景,包括如何使用GraphX进行网络分析,以及如何使用Spark Streaming处理实时数据流。
最后,书中还介绍了MLlib的特征提取功能,包括如何使用MLlib进行特征提取,如何进行基本