内容简介
This book is for developers with little to no knowledge of Spark, but with a background in Scala/Java programming. It’s recommended that you have experience in dealing and working with big data and a strong interest in data science.
AI简介
这是一本面向数据科学家和开发者的综合性指南,它详细讲解了如何使用Apache Spark 2.x进行大数据处理。这本书首先介绍了Spark的基本概念和安装设置,然后深入探讨了如何使用Spark Shell、IDE和构建工具来构建和运行Spark应用。
这本书详细介绍了Spark SQL的架构和编程,包括如何使用Spark SQL进行数据查询和转换。此外,还详细介绍了Spark GraphX的架构和编程,包括如何使用GraphX进行图处理和算法计算。
这本书还详细介绍了Spark数据加载与保存的方法,包括如何使用Spark加载和保存各种数据格式,如文本文件、JSON、Parquet等。此外,还详细介绍了Spark在不同语言中的RDD操作API,包括如何使用Scala和Java进行RDD操作。
这本书还详细介绍了Spark on EC2的变化,包括如何使用EC2脚本在Amazon EC2上部署和管理Spark集群。此外,还详细介绍了社区发现算法,包括如何使用PageRank算法进行社区发现。