内容简介
数据挖掘旨在发现蕴含在数据中的有价值的数据模式、知识或规律,是目前非常热门的研究领域。理解数据挖掘模型的原理、方法并熟练掌握其实现技术是数据挖掘从业者必备的能力。本书从理论模型和技术实战两个角度,系统讲述数据挖掘的基本流程、模型方法、实现技术及案例应用,帮助读者系统地掌握数据挖掘的核心技术,培养读者从事数据挖掘工作的基本能力。全书共12章,主要内容包括数据探索、数据预处理、特征选择、基础分类模型及回归模型、集成技术、聚类分析、关联规则分析、时间序列挖掘、异常检测、智能推荐等。除第1章、第2章外,本书以一章对应一个主题的形式完整描述相应主题的数据挖掘模型,简洁、清晰地介绍其基本原理和算法步骤,并结合Python语言介绍数据挖掘模型的实现技术,同时结合案例分析数据挖掘模型在数据挖掘中的应用。此外,书中还通过大量的图、表、代码、示例帮助读者快速掌握相关内容。本书适合作为相关专业本科生和研究生的数据挖掘课程的教材,也可以作为数据挖掘技术爱好者或从业者的入门参考书。
AI简介
这是一本从理论模型和技术实战两个角度,系统讲述数据挖掘的基本流程、模型方法、实现技术及案例应用的书籍。本书共12章,主要内容包括数据探索、数据预处理、特征选择、基础分类模型及回归模型、集成技术、聚类分析、关联规则分析、时间序列挖掘、异常检测、智能推荐等。
在书中,作者首先从数据挖掘技术与应用场景入手,介绍了数据挖掘的基本概念、典型应用场景、一般流程和常用工具。接着,作者详细介绍了NumPy模块和Pandas模块,并阐述了数据探索的重要性。在数据探索部分,作者深入探讨了数据的特征类型、统计描述方法以及特征选择的概念和重要性。
在特征选择部分,作者详细介绍了特征选择方法,包括过滤法、嵌入法和包装法,并解释了这些方法的工作原理和优缺点。在有监督学习分类和回归任务部分,作者详细讲解了分类和回归任务的基本概念、原理和实现方法。
在集成技术部分,作者深入讲解了装袋、提升和堆叠三种集成技术的基本原理,并探讨了它们在提高模型性能方面的作用。在聚类分析部分,作者详细介绍了聚类分析的定义、意义、评价指标以及常用的聚类算法,如k-means算法。
在时间序列挖掘部分,作者详细介绍了时间序列的定义、意