内容简介
If you are a Java developer interested in learning to use the popular Apache Spark framework, this book is the resource you need to get started. Apache Spark developers who are looking to build enterprise-grade applications in Java will also find this book very useful.
AI简介
这是一本专注于Java开发者的Apache Spark框架的权威指南。本书详细阐述了Spark生态系统与2.x新特性,包括Hadoop和Spark的基本概念,以及Spark RDD模型和Java 8新特性在Spark应用程序开发中的应用。
书中首先介绍了Java接口机制概览,包括接口的定义、作用以及Java 8中接口的变化。接着,书中深入探讨了RDD的存储和分区策略,以及如何通过RDD的操作和转化进行数据处理和计算。此外,书中还详细介绍了Spark作业配置方法,包括创建一个SparkConf对象,并根据需要设置参数,然后将其传递给SparkContext的构造函数。
书中还深入讲解了Spark SQL简介与功能,包括DataFrame和Dataset的概念,以及如何使用Spark SQL进行数据处理和查询。此外,书中还介绍了结构化流处理的概念,包括Structured Streaming的简介、讨论内容以及实践应用。
在机器学习和图计算方面,书中详细介绍了Spark MLlib的核心概念,包括机器学习的基本概念、DataFrame和Dataset的概念,以及如何使用Spark M