循序渐进学Spark

循序渐进学Spark

评分

★★★★★

ISBN

9787111563327

出版社

机械工业出版社 2017-04-01出版

作者

杨磊

分类

数据库

内容简介
本书以小象学院git项目方式管理。感谢姜冰钰、陈超、冼茂源等每一位内容贡献者,感谢他们花费大量时间,将自己对Spark的理解加上在实际工作、学习过程中的体会,融汇成丰富的内容。与企业不断涌现的对大数据技术的需求相比,大数据人才还存在很大缺口,对大数据技术充满期许的新人正在源源不断地加入这个领域。在小象学院的教学实践过程中,我们发现,一本能完整系统地介绍Spark各模块原理并兼顾使用实战的书,对于初入大数据领域的技术人员至关重要。于是,我们根据日常积累的经验,著成本书。
AI简介
这是一本全面、系统介绍Spark编程模型、Spark机制原理、Spark生态系统的构成以及Spark应用与运行模式的综合性书籍。书中详细阐述了Spark的内存计算特性,以及Spark生态系统的构成,包括Spark SQL、Spark Streaming、MLlib和GraphX等子模块。 在Spark编程模型方面,书中深入剖析了RDD弹性分布式数据集的概念,并详细介绍了Spark程序模型以及Spark算子。书中还详细阐述了Spark机制原理,包括Spark应用执行机制分析、Spark调度机制、Spark存储与I/O、Spark通信机制、容错机制及依赖以及Shuffle机制。 在Spark生态系统的构成方面,书中详细介绍了Spark SQL、Spark Streaming、SparkR以及MLlib on Spark等子模块。这些子模块为大数据处理提供了全面的支持,包括批处理、实时处理、机器学习、图计算等各个方面。 在Spark应用与运行模式方面,书中详细阐述了Spark应用的基本概念、Spark的调度逻辑、Spark的重要组成模块以及Spark on YARN的部署模式。书中还详
阅读/下载地址