大数据技术体系详解:原理、架构与实践

大数据技术体系详解:原理、架构与实践

评分

★★★★★

ISBN

9787111590729

出版社

机械工业出版社 2018-01-01出版

作者

董西成

分类

数据库

内容简介
随着大数据技术的普及,它已经被广泛应用于互联网、电信、金融、工业制造等诸多行业。据相关报告统计,大数据人才需求呈井喷态势,越来越多的程序员开始学习大数据技术,这使得它已经成为程序员所需的基本技能。为了满足大数据人才市场需求,越来越多的大数据技术书籍不断面世,包括《Hadoop权威指南》《Hadoop实战》等。尽管如此,面向初、中级学者,能够系统化、体系化介绍大数据技术的基础书籍并不多见。笔者曾接触过大量大数据初学者,他们一直渴望能有一本简单且易于理解的教科书式的大数据书籍出现。为了满足这些读者的需求,笔者根据自己多年的数据项目和培训经验,继《Hadoop技术内幕》书籍之后,于两年前开始尝试编写一本浅显易读的大数据基础书籍。
AI简介
这是一本深入探讨大数据技术原理、架构与实践的专业书籍。本书首先从大数据技术对经济转型的影响出发,为读者提供了宏观的视角。随后,书中详细介绍了大数据系统产生的背景及应用场景,包括关系型数据的收集、非关系型数据的收集、分布式消息队列Kafka等。在数据存储方面,书中详细阐述了数据序列化的意义与应用场景,以及文件存储格式与特点,并深入探讨了分布式文件系统HDFS的原理与架构。 书中对分布式协调服务的重要性和ZooKeeper的数据模型与架构进行了详细解析,揭示了分布式系统中的关键问题。在资源管理与调度方面,书中详细介绍了YARN产生背景和资源管理与调度系统YARN的设计思想。对于大数据计算引擎,书中深入剖析了MapReduce概述,以及Spark高性能DAG计算引擎特性。同时,书中还详细介绍了流式实时计算引擎原理与应用,以及大数据机器学习库MLLib,为读者提供了从大数据处理到数据分析的完整解决方案。 书中还对非关系型数据的种类和特点进行了详细讨论,包括Flume NG基本架构和Flume NG数据流拓扑构建方法。在数据存储格式方面,书中探讨了列式存储格式在数据分析中的应用,以及ORC、
阅读/下载地址