内容简介
If you are a developer with some experience with Spark and want to strengthen your knowledge of how to get around in the world of Spark, then this book is ideal for you. Basic knowledge of Linux, Hadoop and Spark is assumed. Reasonable knowledge of Scala is expected.
AI简介
这是一本深入探讨Apache Spark 2.x的著作,旨在帮助开发者、数据科学家和系统工程师掌握如何使用Apache Spark进行大数据处理和分析。本书首先介绍了Apache Spark的基本概念、生态系统、性能优化以及与其他技术的集成,然后详细介绍了如何使用Apache Spark进行数据处理、机器学习、流处理和图处理等高级任务。
书中详细解释了Apache Spark的概述和关键特性,包括Spark的基本概念、生态系统、性能优化以及与其他技术的集成。重点介绍了Spark machine learning、Spark Streaming、Spark SQL、Spark graph processing等核心组件,以及Spark SQL的DataFrame和Dataset API,Project Tungsten的内存管理和代码生成,以及Apache Spark Streaming的批处理流和窗口流等流处理类型。
书中还详细介绍了大数据集群设计,包括边缘节点的角色、组件模型、防火墙、端口开放、系统分配以及边缘节点资源使用和调整等关键内容。同时,还深入探讨了IaaS, PaaS,