内容简介
This book is for anyone who wants to leverage Apache Spark for data science and machine learning. If you are a technologist who wants to expand your knowledge to perform data science operations in Spark, or a data scientist who wants to understand how algorithms are implemented in Spark, or a newbie with minimal development experience who wants to learn about Big Data Analytics, this book is for you!
AI简介
这是一本全面、深入的指南,面向希望利用Apache Spark进行数据科学和机器学习的技术人员、数据科学家和新手。本书涵盖了从大数据分析的基本概念到高级数据科学应用的所有内容,为读者提供了一个完整的框架,以便理解和应用数据科学。
书中首先介绍了大数据分析的演变,解释了Apache Spark在大数据处理中的核心作用,并详细讨论了Spark编程模型的设计目标和选择。接着,本书深入探讨了RDD API的基本概念,包括创建RDD、转换操作和行动操作,以及RDD的基本操作。这些概念是理解Spark处理大数据的基础。
随后,本书介绍了DataFrames的概念,解释了为什么需要DataFrames,并详细讨论了Spark SQL和Catalyst优化器。这些内容帮助读者理解如何通过Spark SQL和Catalyst优化器来处理和分析结构化数据。
在讨论数据分析生命周期的关键步骤时,本书提供了从提出问题到数据清洗、模型训练、结果发布的完整流程。同时,本书还详细介绍了机器学习的历史发展,包括监督学习和无监督学习的基本概念。
此外,本书还讨论了R语言在数据科学中的地位和应用,以及SparkR