Spark核心技术与高级应用

Spark核心技术与高级应用

评分

★★★★★

ISBN

9787111523543

出版社

机械工业出版社 2015-12-01出版

作者

于俊

分类

数据库

内容简介
从技术层面上,Spark作为一个快速、通用的大规模数据处理引擎,凭借其可伸缩、基于内存计算等特点,以及可以直接读写HDFS上数据的优势,实现了批处理时更加高效、延迟更低,已然成为轻量级大数据快速处理的统一平台。Spark集成Spark SQL、Spark Streaming、MLlib、GraphX、SparkR等子框架,并且提供了全新的大数据处理方式,让从业者的工作变得越来越便捷。本书从基础讲起,针对性地给出了实战场景;并围绕DataFrame,兼顾在Spark SQL和Spark ML的应用。
AI简介
这是一本深度剖析Apache Spark大数据处理框架的著作。该书从基础篇开始,深入浅出地介绍了Spark框架概述,包括Spark大数据处理框架的基本概念、特点、用途以及其生态环境。接着,书中详细阐述了Spark作业执行解析,包括Spark组件、RDD图、DAG图,以及基于Standalone和YARN的Spark架构分析,还有Spark事件流的分析。 书中进一步讲解了Spark不同部署模式,包括Local模式部署、Standalone模式部署、YARN模式部署以及Mesos模式部署,使读者能够根据项目的具体需求和资源情况选择合适的部署模式。此外,书中还详细介绍了Spark SQL的构成与功能,包括Catalyst优化、Spark SQL内核、Hive支持,以及DataFrame的概念与特点。 书中对Spark MLlib与ML库对比进行了深入分析,阐述了Spark MLlib和Spark ML库的特点和适用场景。同时,还介绍了GraphX图计算框架,包括GraphX架构、编程、应用场景等内容。在介绍DStream编程模型时,书中详细讲解了如何通过DStream编程模型处理实时数据
阅读/下载地址