AI简介
这是一本从企业实践角度出发,内容覆盖数据、平台、分析和应用等企业内数据流转的主要环节的书籍。该书以数据闭环为核心,详细阐述了数据的基本形态、数据平台的功能与构成、数据闭环的概念与特征、数据预处理的重要性以及数据驱动应用系统的构建等内容。
书中首先介绍了数据科学家与数据仓库开发者的区别,强调了数据科学家在提炼数据价值方面的职责和重要性。接着,作者深入探讨了数据的基本形态,包括生产数据、原始数据和分析数据,以及数据平台的功能与构成,包括HDFS、MapReduce等基础模块,数据环境,数据形态,以及数据平台与应用系统之间的关系。
在数据闭环方面,作者详细阐述了数据闭环的概念与特征,包括数据闭环的松耦合、易扩展特点,以及数据缓冲区、ETL作业和作业调度在构建数据闭环自循环过程中的重要性。此外,作者还介绍了数据预处理的重要性,包括对数据记录的处理和对变量的处理,以及数据可视化工具的选择与使用,包括BI工具、数据缓冲区、ETL、作业调度等。
在数据分析方法和算法的分类方面,作者将最常用的分析方法与算法划归为关联类、预测类和描述类,并详细介绍了决策树类算法的基本原理和随机森林算法的应用。此外