数据质量管理:数据可靠性与数据质量问题解决之道

数据质量管理:数据可靠性与数据质量问题解决之道

评分

★★★★★

ISBN

9787111754114

出版社

机械工业出版社 2024-05-16出版

分类

数据库

内容简介
本书是一本关于如何清洗、整理和理解数据的手册,还介绍了围绕构建更可靠的数据系统的最佳实践、技术和流程,并在此过程中培养团队和利益相关方对数据的信任。本书首先引入“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。之后深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、事后分析等。接着讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。
AI简介
这是一本关于如何清洗、整理和理解数据的手册,还介绍了围绕构建更可靠的数据系统的最佳实践、技术和流程,并在此过程中培养团队和利益相关方对数据的信任。本书首先引入“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。之后深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、事后分析等。接着讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。 本书详细解析了数据质量对机器学习的影响,强调了数据质量对机器学习结果可靠性的重要性。同时,本书也深入讨论了数据系统的复杂性,包括数据仓库与数据湖的区别和联系,以及数据目录的作用和重要性。此外,本书还详细介绍了数据收集的重要性,包括应用程序日志数据、API响应和传感器数据等。 在讨论数据质量问题解决时,本书提供了数据质量问题解决过程的详细步骤,包括暂停数据管道、查
阅读/下载地址