AI简介
这是一本全面讲解大数据Hadoop 3.X的实用指南。这本书涵盖了大数据与Hadoop概述、Hadoop伪分布式安装、HDFS分布式文件系统、MapReduce分布式计算框架,以及Hadoop生态的常用组件,包括NoSQL数据库HBase、分布式数据仓库Hive、数据转换工具Sqoop、内存计算框架Spark。此外,本书还详细讲解了3个企业级的大型大数据综合实战项目,包括海量Web日志分析系统、电商商品推荐系统、分布式垃圾消息识别系统。
在Hadoop技术部分,书中详细介绍了大数据与Hadoop概述、Hadoop伪分布式安装、HDFS分布式文件系统、MapReduce分布式计算框架等内容。Hadoop技术部分的内容是学习Hadoop的基础,包括Hadoop的基本概念、安装、配置、使用方法等。
在Hadoop生态系统的主要大数据工具整合应用部分,书中讲解了NoSQL数据库HBase、分布式数据仓库Hive、数据转换工具Sqoop、内存计算框架Spark等Hadoop生态系统的常用组件。这部分内容可以帮助读者深入理解Hadoop生态系统,并学会如何使用这些工具进行大数据处理。
在实战