AI简介
这是一本深度剖析Spark内部高度抽象的数据结构RDD、分布式DAG调度器/驱动器,以及高效的基于Non-blockingIO分布式计算框架Akka/Netty等内核设计的参考书。本书主要从Spark的基本设计思想、Spark的部署模式、Spark的内存管理以及Spark的任务调度等多个方面进行了深度的剖析。
本书首先介绍了Spark的基本设计思想,包括Spark将整个系统按照功能的不同进行模块的拆分,主要分为核心功能和扩展功能。其中,核心功能是Spark设计理念的核心实现,也是Spark陆续加入新功能的基础。在核心功能之上,通过不断地将丰富的扩展功能持续集成到Spark中,使得Spark满足更多市场、应用和用户的需求,促使Spark生态圈更加繁荣。
接着,本书深入讲解了Spark的部署模式,包括local部署模式、local-cluster部署模式,以及Standalone部署模式。这些部署模式在高可用性、容错与故障恢复、可扩展性等方面存在差异。通过学习这些部署模式,读者可以深入理解Spark的调度和执行机制。
在Spark的内存管理方面,本书详细介绍了Spark的内存管理器提