Spark技术内幕:深入解析Spark内核架构设计与实现原理

Spark技术内幕:深入解析Spark内核架构设计与实现原理

评分

★★★★★

ISBN

9787111509646

出版社

机械工业出版社 2015-09-01出版

作者

张安站

分类

编程设计

内容简介
Spark是不断壮大的大数据分析解决方案家族中备受关注的新成员。它不仅为分布式数据集的处理提供了一个有效框架,而且以高效的方式处理分布式数据集。它支持实时处理、流处理和批处理,提供了统一的解决方案,因此极具竞争力。本书以源码为基础,深入分析Spark内核的设计理念和架构实现,系统讲解各个核心模块的实现,为性能调优、二次开发和系统运维提供理论支持,为更好地使用Spark Streaming、MLlib、Spark SQL和GraphX等奠定基础。
AI简介
这是一本深入解析Spark内核架构设计与实现原理的专业书籍。该书以源码为基础,详细讲解了Spark的技术优势、影响力、任务调度模块、运行模式、Task的执行与结果处理、Executor模块的任务分配与执行机制、Shuffle模块概述、Shuffle Pluggable框架以及性能调优等方面的内容。 书中首先介绍了Spark的技术优势和影响力,包括其快速查询、内存计算、大规模数据处理以及丰富的组件等方面。接着,该书深入讲解了RDD的基本概念和特性,包括分布式数据集的抽象、容错性、位置感知性调度和可伸缩性等方面。此外,该书还详细介绍了Spark任务调度模块概述,包括DAGScheduler和TaskScheduler两个核心组件,以及它们如何将用户提交的计算任务划分为不同的阶段,并将这些阶段的任务提交到集群进行计算。 在介绍Executor模块的任务分配与执行机制时,该书详细讲解了Spark中Executor模块如何将计算任务分配给Executor资源,并在这些资源上执行任务,最后将计算结果回传到Driver。在介绍Shuffle模块概述时,该书深入讲解了Spark中Shuffle模块
阅读/下载地址