内容简介
If you are a system or application developer interested in learning how to solve practical problems using the Hadoop framework, then this book is ideal for you. You are expected to be familiar with the Unix/Linux command-line interface and have some experience with the Java programming language. Familiarity with Hadoop would be a plus.
AI简介
这是一本针对系统或应用开发者,旨在帮助他们掌握Hadoop 2框架,以解决实际问题的书籍。本书首先介绍了Hadoop 2的核心组件,包括YARN、HDFS和MapReduce,并详细解释了这些组件的工作原理和用途。接着,本书深入探讨了如何使用HDFS存储数据,包括命令行访问HDFS文件系统、保护文件系统元数据、使用HDFS快照等。
在数据处理方面,本书详细介绍了MapReduce的工作原理与应用,以及如何使用Samza的流处理框架和Spark的数据处理模型。这些框架和模型使得开发者能够处理大规模数据集,并提供了丰富的功能,如SQL查询、机器学习、图计算等。
此外,本书还介绍了Pig Latin语言和Pig内置函数,以及如何使用这些工具和语言进行数据处理。同时,本书还讨论了HiveQL与SQL对比,以及如何使用HiveQL扩展机制来处理更复杂的数据处理任务。
在数据管理方面,本书介绍了数据生命周期管理工具,并讨论了如何构建数据摄取管道、数据验证和格式变化处理等。此外,本书还介绍了选择合适的Hadoop生态系统框架,以及如何使用这些框架来构建模块化的数据管道。