大数据处理系统:Hadoop源代码情景分析

大数据处理系统:Hadoop源代码情景分析

评分

★★★★★

ISBN

9787308166690

出版社

浙江大学出版社 2017-03-01出版

作者

毛德操

内容简介
Hadoop是目前采用最广、最重要的一种开源的大数据处理平台,读懂Hadoop的源代码,深入理解其各种机理,对于掌握大数据处理的技术有着显而易见的重要性。本书从大数据处理的原理开始,讲到Hadoop的由来,进而讲述对于代码的研究方法,然后以Hadoop作为样本,较为详尽地逐一分析大数据处理平台各核心组成部分的代码,并从宏观上讲述这些部分的联系和作用。本书沿用作者独特而广受欢迎的情景分析方法和风格,深入浅出直白易懂,可以作为大数据系统高级课程的教材,也可用作计算机软件专业和其他相关专业大学本科高年级学生和研究生深入学习大数据系统的参考书。同时,还可以作为各行业从事软件开发和数据挖掘的工程师、研究人员以及其他对大数据处理技术感兴趣者的自学教材。
AI简介
这是一本深度解析Hadoop源代码的专业书籍。该书以大数据处理原理为起点,逐步深入到Hadoop的起源、发展,进而以Hadoop为样本,深入剖析大数据处理平台各核心组成部分的代码。书中采用情景分析的方法,以用户的角度,将复杂的源代码简化为易于理解的情景,帮助读者深入理解Hadoop的工作原理。 书中首先介绍了大数据的应用领域,包括在线事务处理(OLTP)和在线分析处理(OLAP)等,并讨论了大数据处理平台需要具备的特性。接着,书中详细介绍了并行计算的概念和方式,包括并行计算模型和并行计算方式,以及数据流的概念。 在介绍Hadoop时,书中详细阐述了MapReduce的概念和结构,以及Hadoop Streaming的概念。同时,书中还深入探讨了HDFS的概述与特性,包括HDFS的基本概念、设计原则以及其与Hadoop集群的关系。 书中还详细介绍了Hadoop作业的提交概述,包括作业的设计、实现,以及在Hadoop集群中提交作业的具体操作。此外,书中还介绍了不同资源调度器的介绍,包括FifoScheduler、FairScheduler和CapacityScheduler,以及YA
阅读/下载地址