内容简介
This book is for developers who want to try out clustering on large datasets using Mahout. It will also be useful for those users who don’t have background in Mahout, but have knowledge of basic programming and are familiar with basics of machine learning and clustering. It will be helpful if you know about clustering techniques with some other tool.
AI简介
这是一本专注于使用Apache Mahout进行大规模数据集聚类的实用指南。这本书详细介绍了层次聚类方法,K-means算法,Canopy聚类算法等多种聚类技术,并通过实例展示了如何使用Mahout实现这些算法。同时,这本书还深入探讨了模型基础在聚类中的重要性,以及如何通过调整距离度量和输入矩阵来提升集群质量。
书中首先介绍了在Windows上安装Mahout的过程,并详细阐述了层次聚类方法的工作原理。接着,作者深入讲解了K-means算法,包括其基本原理,以及如何通过可视化K-means聚类的结果来理解聚类结果。此外,书中还介绍了Canopy聚类算法,这是一种快速、初始的聚类方法,可以用于快速发现数据中的大致聚类。
书中还探讨了模型基础在聚类中的重要性,包括概率论、统计学、线性代数等模型基础在聚类中的应用。同时,作者还介绍了谱聚类算法的基本原理,以及如何使用Mahout实现谱聚类算法。此外,书中还讨论了改变距离度量和调整输入矩阵对集群质量的影响,并提供了一些实用的方法来提升集群质量。