内容简介
《实战大数据(Hadoop+Spark+Flink)——从平台构建到交互式数据分析(离线/实时)》详细介绍了大数据工程师在实际工作中应该熟练掌握的大数据技术。全书共8章,分别是大数据技术概述、搭建IDEA开发环境及Linux虚拟机、基于Hadoop构建大数据平台、基于HBase和Kafka构建海量数据存储与交换系统、用户行为离线分析—构建日志采集和分析平台、基于Spark的用户行为实时分析、基于Flink的用户行为实时分析、用户行为数据可视化。本书以一个完整的大数据项目为主线,涵盖Hadoop、Spark、Flink等主流大数据技术,按照大数据工程师的项目开发流程,理论与实践结合,逐步推进,使读者在学习大数据核心技术的同时,也能掌握开发大数据项目的完整流程,从而获得大数据项目开发经验。《实战大数据(Hadoop+Spark+Flink)——从平台构建到交互式数据分析(离线/实时)》既可以作为大数据工程师的必备开发手册,也可以作为高校大数据及相关专业的教材或实验手册。
AI简介
这是一本全面讲解大数据技术的实用书籍。本书从大数据平台构建、大数据采集、大数据存储与交换、大数据离线计算以及大数据实时计算等多个方面,详细介绍了大数据工程师在实际工作中应该熟练掌握的大数据技术。
书中首先对大数据平台架构进行了概述,包括数据获取、数据存储、资源管理、数据处理、交互式分析、机器学习与数据挖掘以及数据服务与可视化等关键技术。接着,详细介绍了搭建IDEA开发环境及Linux虚拟机的方法,为后续的大数据平台构建提供了必要的技术支持。
在大数据平台构建方面,本书详细讲解了基于Hadoop构建大数据平台的方法,包括Zookeeper分布式协调服务、HDFS分布式文件系统、YARN资源管理系统以及MapReduce分布式计算框架等。同时,还介绍了基于HBase和Kafka构建海量数据存储与交换系统的方法,包括构建HBase分布式实时数据库和搭建Kafka分布式消息系统等。
在大数据采集方面,本书介绍了用户行为离线分析—构建日志采集和分析平台的方法,包括搭建Flume日志采集系统和使用Flume采集用户行为数据等。同时,还介绍了基于Spark的用户行为实时分析和基于Flink的用