Spark Streaming技术内幕及源码剖析

Spark Streaming技术内幕及源码剖析

评分

★★★★★

ISBN

9787302464914

出版社

清华大学出版社 2017-05-01出版

作者

王家林

分类

编程设计

内容简介
本书以大数据处理引擎Spark的稳定版本1.6.x为基础,从应用案例、原理、源码、流程、调 优等多个角度剖析Spark上的实时计算框架Spark Streaming。在勾勒出Spark Streaming架构轮廓的 基础上,从基本源码开始进行剖析,由浅入深地引导已具有Spark和Spark Streaming基础技术知识 的读者进行Spark Streaming的进阶学习,理解Spark Streaming的原理和运行机制,为流数据处理 的决策和应用提供了技术参考;结合Spark Streaming的深入应用的需要,对Spark Streaming的性 能调优进行了分析,也对Spark Streaming功能的改造和扩展提供了指导。 本书适合大数据领域CTO、架构师、高级软件工程师,尤其是Spark领域已有Spark Streaming 基础知识的从业人员阅读,也可供需要深入学习Spark、Spark Streaming的高校研究生和高年级本 科生参考。
AI简介
这是一本深入剖析Spark Streaming框架的专业书籍。该书以大数据处理引擎Spark的稳定版本1.6.x为基础,从应用案例、原理、源码、流程、调优等多个角度全面剖析了Spark Streaming。 该书首先对Spark Streaming进行了简介,介绍了其整体架构、应用剖析、设计思想以及与其他Spark部件的关系。Spark Streaming将流式计算分解成一系列短小的批处理作业,其批处理引擎是Spark Core。Spark Streaming将输入数据按照Batch Interval分成一段一段的数据(DStream),每一段数据都转换成Spark中的RDD,然后将Spark Streaming中对DStream的转换操作变为针对Spark中对RDD的转换操作,将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行叠加或者将结果存储到外部设备。 在Spark 2.0版本更新介绍中,作者详细介绍了更简单、更快速、更智能的处理方式,将流式计算统一到DataFrame里,提出了Structured Streaming的概念。 在Spa
阅读/下载地址