1.1. “数据质量”一词既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程
1.1.1. 如果数据满足数据消费者应用需求的目的,就是高质量的
1.1.2. 如果不满足数据消费者应用需求的目的,就是低质量的
1.1.3. 数据质量取决于使用数据的场景和数据消费者的需求
1.2. 有效的数据管理涉及一系列复杂的、相互关联的过程,它使组织能够利用他们的数据来实现其战略目标
1.2.1. 为各类应用设计数据模型、安全存储和访问数据、适当地共享数据、从数据中获得知识,以及保障满足业务需求的能力
1.3. 实现数据价值的前提是数据本身是可靠和可信的,换句话说,数据应是高质量的
1.4. 导致低质量数据产生的因素
1.4.1. 组织缺乏对低质量数据影响的理解
1.4.2. 缺乏规划
1.4.3. 孤岛式系统设计
1.4.4. 不一致的开发过程
1.4.5. 不完整的文档
1.4.6. 缺乏标准或缺乏治理
1.5. 所有数据管理的原则都应有助于提高数据质量,支持组织使用高质量数据应是所有数据管理原则的目标
1.6. 产生高质量数据需要跨职能的承诺和协调
1.7. 通过执行过程和项目管理,提前为高质量的数据做好准备,以应对与数据相关的意外或不可接受的风险
1.8. 没有一个组织拥有完美的业务流程、完美的技术流程或完美的数据管理实践,所有组织都会遇到与数据质量相关的问题
1.9. 正式的数据质量管理类似于其他产品领域的持续质量管理,包括在整个生命周期制定标准,在数据创建、转换和存储过程中完善质量,以及根据标准度量数据来管理数据
1.10. 数据质量团队(Data Quality Program Team)
1.10.1. 报告数据质量水平,参与数据问题的分析、问题的量化和优先级排序
1.11. 与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作
1.11.1. 包括项目和维护工作,以及承诺进行沟通和培训
1.11.2. 数据质量改进取得长期成功取决于组织文化的改变及质量观念的建立
1.11.3. 最关键的变革之一是关注他们的组织如何管理和提高数据质量
1.12. 数据质量管理的挑战之一,是与质量相关的期望并不总是已知的
1.12.1. 客户可能不清楚自身的质量期望,数据管理人员也不会询问这些需求
1.12.2. 如果数据是可靠和可信的,那么数据管理专业人员需要更好地了解客户的质量要求,以及如何衡量数据质量
2. 业务驱动因素2.1. 提高组织数据价值和数据利用的机会
2.2. 降低低质量数据导致的风险和成本
2.3. 提高组织效率和生产力
2.4. 保护和提高组织的声誉
2.5. 高质量数据比低质量数据更有价值
2.5.1. 使用劣质数据充满风险,会损害组织的声誉,导致罚款、收入损失、客户流失和负面的媒体曝光
2.5.2. 监管的需求通常要求高质量的数据
2.6. 许多直接成本均与低质量数据有关
2.6.1. 无法正确开具发票
2.6.2. 增加客服电话量,降低解决问题的能力
2.6.3. 因错失商业机会造成收入损失
2.6.4. 影响并购后的整合进展
2.6.5. 增加受欺诈的风险
2.6.6. 由错误数据驱动的错误业务决策造成损失
2.6.7. 因缺乏良好信誉而导致业务损失
2.7. 高质量数据本身并不是目的,它只是组织获取成功的一种手段
2.7.1. 值得信赖的数据不仅降低了风险,而且降低了成本,提高了效率
2.7.2. 当员工使用可靠的数据时,他们可以更快、更一致地回答问题
2.7.3. 如果数据是正确的,他们能花更少的时间发现问题,而将更多的时间用于使用数据来获得洞察力、做决策和服务客户
3. 目标3.1. 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求
3.2. 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
3.3. 定义和实施测量、监控和报告数据质量水平的过程
4. 原则4.1. 重要性
4.1.1. 据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定
4.2. 全生命周期管理
4.2.1. 数据质量管理应覆盖从创建或采购直至处置的数据全生命周期,包括其在系统内部和系统之间流转时的数据管理(数据链中的每个环节都应确保数据具有高质量的输出)
4.3. 预防
4.3.1. 数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上
4.4. 根因修正
4.4.1. 提高数据质量不只是纠正错误,因为数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解
4.5. 治理
4.5.1. 数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境
4.6. 标准驱动
4.6.1. 数据生命周期中的所有利益相关方都会有数据质量要求
4.6.2. 在可能的情况下,对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义
4.7. 客观测量和透明度
4.7.1. 数据质量水平需要得到客观、一致的测量
4.8. 嵌入业务流程
4.8.1. 业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准
4.9. 系统强制执行
4.9.1. 系统所有者必须让系统强制执行数据质量要求
4.10. 与服务水平关联
4.10.1. 数据质量报告和问题管理应纳入服务水平协议(SLA)
5. 关键数据5.1. 大多数组织都有大量的数据,但并非所有的数据都同等重要
5.2. 数据质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数据上,这样做可以明确项目范围,并使其能够对业务需求产生直接的、可测量的影响
5.3. 评估关键数据
5.3.1. 监管报告
5.3.2. 财务报告
5.3.3. 商业政策
5.3.4. 持续经营
5.3.5. 商业战略,尤其是差异化竞争战略
5.4. 主数据至关重要
6. 数据质量维度6.1. 数据质量维度是数据的某个可测量的特性
6.1.1. 术语“维度”可以类比于测量物理对象的维度(如长度、宽度、高度等)
6.1.2. 数据质量维度提供了定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质量和持续改进的成效
6.1.3. 维度是衡量规则的基础,其本身应该与关键流程中的潜在风险直接相关
6.2. Strong-Wang框架
6.2.1. 内在数据质量
6.2.1.1. 准确性
6.2.1.2. 客观性
6.2.1.3. 可信度
6.2.1.4. 信誉度
6.2.2. 场景数据质量
6.2.2.1. 增值性
6.2.2.2. 关联性
6.2.2.3. 及时性
6.2.2.4. 完整性
6.2.2.5. 适量性
6.2.3. 表达数据质量
6.2.3.1. 可解释性
6.2.3.2. 易理解性
6.2.3.3. 表达一致性
6.2.3.4. 简洁性
6.2.4. 访问数据质量
6.2.4.1. 可访问性
6.2.4.2. 访问安全性
6.3. Thomas Redman
6.3.1. 数据项定义为“可表示的三元组”:一个实体属性域与值的集合
6.3.1.1. 维度可以与数据的任何组成部分相关联:模型(实体和属性)及其值
6.3.2. 数据模型
6.3.2.1. 内容
6.3.2.1.1. 数据关联性
6.3.2.1.2. 获取价值的能力
6.3.2.1.3. 定义清晰性
6.3.2.2. 详细程度
6.3.2.2.1. 特征描述颗粒度
6.3.3. 属性域的精准度
6.3.3.1. 构成
6.3.3.1.1. 自然性
6.3.3.1.1.1. 每个属性在现实世界中应该有一个简单的对应物,且每个属性都应承载一个关于实体的单一事
6.3.3.1.2. 可识别性
6.3.3.1.2.1. 每个实体都应能与其他实体区分开来
6.3.3.1.3. 同一性
6.3.3.1.4. 最小必要冗余性
6.3.3.2. 一致性
6.3.3.2.1. 模型各组成部分的语义一致性
6.3.3.2.2. 跨实体类型属性的结构一致性
6.3.3.3. 应变性
6.3.3.3.1. 健壮性
6.3.3.3.2. 灵活性
6.3.3.4. 数据值
6.3.3.4.1. 准确性
6.3.3.4.2. 完备性
6.3.3.4.3. 时效性(Currency)
6.3.3.4.4. 一致性
6.3.3.5. 数据表达
6.3.3.5.1. 适当性
6.3.3.5.2. 可解释性
6.3.3.5.3. 可移植性
6.3.3.5.4. 格式精确性
6.3.3.5.5. 格式灵活性
6.3.3.5.6. 表达空值的能力
6.3.3.5.7. 有效利用存储
6.3.3.5.8. 数据的物理实例与其格式一致
6.4. Larry English
6.4.1. 固有特征和实用特征
6.4.1.1. 固有特征与数据使用无关,实用特征是动态的,与数据表达相关,其质量价值依赖数据的用途而不同
6.4.2. 固有质量特征
6.4.2.1. 定义的一致性
6.4.2.2. 值域的完备性
6.4.2.3. 有效性或业务规则一致性
6.4.2.4. 数据源的准确性
6.4.2.5. 反映现实的准确性
6.4.2.6. 精确性
6.4.2.7. 非冗余性
6.4.2.8. 冗余或分布数据的等效性
6.4.2.9. 冗余或分布数据的并发性
6.4.3. 实用质量特征
6.4.3.1. 可访问性
6.4.3.2. 及时性
6.4.3.3. 语境清晰性
6.4.3.4. 可用性
6.4.3.5. 多源数据的可整合性
6.4.3.6. 适当性或事实完整性
6.5. DAMA UK
6.5.1. 完备性
6.5.1.1. 存储数据量与潜在数据量的百分比
6.5.2. 唯一性
6.5.2.1. 在满足对象识别的基础上不应多次记录实体实例(事物)
6.5.3. 及时性
6.5.3.1. 数据从要求的时间点起代表现实的程度
6.5.4. 有效性
6.5.4.1. 如数据符合其定义的语法(格式、类型、范围),则数据有效
6.5.5. 准确性
6.5.5.1. 数据正确描述所描述的“真实世界”对象或事件的程度
6.5.6. 一致性
6.5.6.1. 比较事物多种表述与定义的差异
6.5.7. 可用性(Usability)
6.5.8. 时间问题(Timing Issues)(超出时效性本身)
6.5.9. 灵活性(Flexibility)
6.5.10. 置信度(Confidence)
6.5.11. 价值(Value)