内容简介
本书不会教你如何开发Spark应用程序,只是用一些经典例子演示。本书简单介绍Hadoop MapReduce、Hadoop YARN、Mesos、Tachyon、ZooKeeper、HDFS、Amazon S3,但不会过多介绍这些框架的使用,因为市场上已经有丰富的这类书籍供读者挑选。本书也不会过多介绍Scala、Java、Shell的语法,读者可以在市场上选择适合自己的书籍阅读。本书最后还添加了几个附录,包括:附录A介绍的Spark中最常用的工具类Utils;附录B是Akka的简介与工具类AkkaUtils的介绍;附录C为Jetty的简介和工具类JettyUtils的介绍;附录D为Metrics库的简介和测量容器MetricRegistry的介绍;附录E演示了Hadoop1.0版本中的word count例子;附录F介绍了工具类CommandUtils的常用方法;附录G是关于Netty的简介和工具类NettyUtils的介绍;附录H列举了笔者编译Spark源码时遇到的问题及解决办法。
AI简介
这是一本全面且深入地介绍Spark的书籍。本书以Spark的设计理念和基本架构为起点,详细讲解了Spark的核心设计,包括SparkContext的初始化、存储体系、任务提交与执行、计算引擎等关键内容。此外,本书还详细介绍了Spark SQL、流式计算、图计算和机器学习等扩展模块的设计与实现。
本书对Spark的设计理念和基本架构进行了深入的剖析,包括Spark的设计理念、基本架构、SparkContext的初始化过程、存储体系、任务提交与执行、计算引擎等关键内容。这些内容可以帮助读者深入理解Spark的工作原理和运行方式。
本书还详细介绍了Spark SQL的总体设计,包括词法解析器Parser的设计与实现、执行物理执行计划等关键内容。这些内容可以帮助读者深入理解Spark SQL的工作原理和运行方式。
本书还详细介绍了流式计算的总体设计,包括输入流接收器规范Receiver、数据流抽象DStream、流式计算执行过程分析、窗口操作等关键内容。这些内容可以帮助读者深入理解流式计算的工作原理和运行方式。
本书还详细介绍了图计算的总体设计,包括Spark GraphX的总体设计、