AI简介
这是一本深度探讨大数据系统构建和管理的实用指南。该书以大数据概述为起点,详细介绍了大数据系统的安装及配置,包括服务器及操作系统的准备,Hadoop及JDK的安装和配置,以及Hive在大数据处理中的角色等内容。书中详细讲解了离线大数据处理的过程,包括使用Python爬虫获取数据,使用Hive在大数据中的角色,使用HBase实现大数据存储,以及使用Spark数据分析引擎等内容。此外,书中还详细介绍了流式大数据处理的过程,包括使用Flume获取网站访问日志,使用Kafka的安装、配置及其与Flume的整合,以及使用Flink简介及其与Kafka的整合等内容。
在介绍大数据系统构建的过程中,书中详细讲解了云平台搭建的过程,包括搭建基于云平台的容器级数据系统,以及飞谷云平台架构及发展历程等内容。书中还详细介绍了基于容器的大数据系统构建的过程,包括云计算平台和容器技术等内容。
在介绍大数据系统管理过程中,书中详细讲解了数据仓库设计的过程,包括事实表、维度表、聚合表等,以及Hive在大数据处理中的角色等内容。书中还详细介绍了大数据的5V特征,包括数据类型多样(Variety)、数据量大(Volu