
数据治理数据质量
的性质,或者如果出现问题对组织的财务、监管或声誉的风险,来评估数据集或单个数据元素的重要性。2)定义数据质量控制的标准和规范,并作为整个数据生命周期的。得信赖的数据不仅降低了风险,而且降低了成本,提高了效率。确的,他们能花更少的时间发现问题,而将更多的时间用于使用数据来。改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判。在可能的情况下,对于可量化的数据质量需求应该以可测量的标。消费者
13.1.1 业务驱动因素
建立正式数据质量管理的业务驱动因素包括:
1)提高组织数据价值和数据利用的机会。
2)降低低质量数据导致的风险和成本。
3)提高组织效率和生产力。
4)保护和提高组织的声誉。
希望从数据中获取价值的组织认识到,高质量数据比低质量数据更
有价值。使用劣质数据充满风险(参见第1章),会损害组织的声誉,
导致罚款、收入损失、客户流失和负面的媒体曝光。监管的需求通常要
求高质量的数据。此外,许多直接成本均与低质量数据有关,例如:
1)无法正确开具发票。
2)增加客服电话量,降低解决问题的能力。
3)因错失商业机会造成收入损失。
4)影响并购后的整合进展。
5)增加受欺诈的风险。
6)由错误数据驱动的错误业务决策造成损失。
7)因缺乏良好信誉而导致业务损失。
高质量数据本身并不是目的,它只是组织获取成功的一种手段。值
得信赖的数据不仅降低了风险,而且降低了成本,提高了效率。当员工
使用可靠的数据时,他们可以更快、更一致地回答问题。如果数据是正
确的,他们能花更少的时间发现问题,而将更多的时间用于使用数据来
获得洞察力、做决策和服务客户。
13.1.2 目标和原则
数据质量管理专注于以下目标:
1)根据数据消费者的需求,开发一种受管理的方法,使数据适合
要求。2)定义数据质量控制的标准和规范,并作为整个数据生命周期的
一部分。
3)定义和实施测量、监控和报告数据质量水平的过程。
根据数据消费者要求,通过改变流程和系统以及参与可显著改善数
据质量的活动,识别和倡导提高数据质量的机会。
数据质量管理应遵循以下原则:
1)重要性。数据质量管理应关注对企业及其客户最重要的数据,
改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判
定。
2)全生命周期管理。数据质量管理应覆盖从创建或采购直至处置
的数据全生命周期,包括其在系统内部和系统之间流转时的数据管理
(数据链中的每个环节都应确保数据具有高质量的输出)。
3)预防。数据质量方案的重点应放在预防数据错误和降低数据可
用性等情形上,不应放在简单的纠正记录上。
4)根因修正。提高数据质量不只是纠正错误,因为数据质量问题
通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持
它们的系统进行更改,而不仅仅是从表象来理解和解决。
5)治理。数据治理活动必须支持高质量数据的开发,数据质量规
划活动必须支持和维持受治理的数据环境。
6)标准驱动。数据生命周期中的所有利益相关方都会有数据质量
要求。在可能的情况下,对于可量化的数据质量需求应该以可测量的标
准和期望的形式来定义。
7)客观测量和透明度。数据质量水平需要得到客观、一致的测
量。应该与利益相关方一同讨论与分享测量过程和测量方法,因为他们
是质量的裁决者。
8)嵌入业务流程。业务流程所有者对通过其流程生成的数据质量
负责,他们必须在其流程中实施数据质量标准。
9)系统强制执行。系统所有者必须让系统强制执行数据质量要
求。
10)与服务水平关联。数据质量报告和问题管理应纳入服务水平协议(SLA)。
13.1.3 基本概念
1.数据质量
“数据质量”一词既指高质量数据的相关特征,也指用于衡量或改进
数据质量的过程。这一双重含义可能会令人困惑,因此将它们区分开有
助于理解什么是高质量的数据[2]。
数据质量如达到数据消费者的期望和需求,也就是说,如果数据满
足数据消费者应用需求的目的,就是高质量的;反之,如果不满足数据
消费者应用需求的目的,就是低质量的。因此,数据质量取决于使用数
据的场景和数据消费者的需求。
数据质量管理的挑战之一,是与质量相关的期望并不总是已知的。
通常,客户可能不清楚自身的质量期望,数据管理人员也不会询问这些
需求。然而,如果数据是可靠和可信的,那么数据管理专业人员需要更
好地了解客户的质量要求,以及如何衡量数据质量。随着业务需求和外
力的发展,需求会随着时间的推移而变化,因此需要进行持续的讨论。
2.关键数据
大多数组织都有大量的数据,但并非所有的数据都同等重要。数据
质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数
据上,这样做可以明确项目范围,并使其能够对业务需求产生直接的、
可测量的影响。
虽然关键的特定驱动因素因行业而异,但组织间存在共同特征,可
根据以下要求评估关键数据:
1)监管报告。
2)财务报告。
3)商业政策。
4)持续经营。
5)商业战略,尤其是差异化竞争战略。
根据定义,主数据至关重要。可以根据使用的过程、出现在报告中
的性质,或者如果出现问题对组织的财务、监管或声誉的风险,来评估数据集或单个数据元素的重要性[3]。
3.数据质量维度
数据质量维度是数据的某个可测量的特性。术语“维度”可以类比于
测量物理对象的维度(如长度、宽度、高度等)。数据质量维度提供了
定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质
量和持续改进的成效。为了衡量数据质量,组织需要针对重要业务流程
(值得测量的)和可以测量的参数建立特征。维度是衡量规则的基础,
其本身应该与关键流程中的潜在风险直接相关。
例如,如果“客户电子邮件地址”字段的数据不完整,将无法通过电
子邮件向这些客户发送产品信息,这就将失去了潜在的销售机会。因
此,应衡量有可用电子邮件地址的客户的百分比,并改进流程,直到至
少有98%的客户有可用电子邮件地址为止。
数据质量领域的很多杰出学者已经发表了一系列质量维度[4]。这里
介绍三个最具影响力的人物,他们深入研究了如何获得高质量数据,以
及如何测量数据质量。
Strong-Wang框架(
1996)侧重于数据消费者对数据的看法,描述
了数据质量的4个大类及15个指标:
(
1)内在数据质量
1)准确性。
2)客观性。
3)可信度。
4)信誉度。
(
2)场景数据质量
1)增值性。
2)关联性。
3)及时性。
4)完整性。
5)适量性。
(
3)表达数据质量1)可解释性。
2)易理解性。
3)表达一致性。
4)简洁性。
(
4)访问数据质量
1)可访问性。
2)访问安全性。
Thomas Redman在《信息时代的数据质量》(Data Quality for the
Information Age,1996)一书中,制定了一套基于数据结构的数据质量
维度[5]。Redman将一个数据项定义为“可表示的三元组”:一个实体属
性域与值的集合。维度可以与数据的任何组成部分相关联:模型(实体
和属性)及其值。Redman还定义了一类用于记录数据项规则的表达维
度。在这三大类别中(数据模型、数据值、数据表达),他一共描述了
更多推荐
所有评论(0)