AI简介
这是一本系统性地介绍新一代MapReduce 2.0的理论体系、架构和程序设计方法的书籍。全书分为10章,涵盖了数据处理的价值理解、大数据时代的挑战、Hadoop概述、MapReduce编程模型、HDFS的架构、使用相关测试工具对程序进行测试、数据挖掘在银行欺诈检测中的应用、数据挖掘的Apriori算法、MapReduce内置计数器的使用方法、序列化定义与好处、啤酒与尿布案例应用、压缩工具选择与性能权衡等关键内容点。
书中首先介绍了数据处理的价值理解,强调了Hadoop这一数据处理工具的重要性,并详细介绍了MapReduce编程模型,包括Map阶段和Reduce阶段的具体执行过程。接着,书中深入剖析了HDFS的架构,包括NameNode和DataNode的作用,以及Block作为HDFS的基本存储单元。
在介绍MapReduce的过程中,书中通过实例展示了如何使用相关测试工具对程序进行测试,以确保MapReduce程序正确运行。同时,书中还介绍了数据挖掘在银行欺诈检测中的应用,以及数据挖掘的Apriori算法,通过具体案例展示了如何利用数据挖掘技术发现隐藏在大量数据中的关联关系。