数据治理:如何有效保障数据质量
在如今这个大数据时代,数据质量对数据价值的意义至关重要。数据质量的好坏极大程度上影响着业务的发展情况。好的数据质量是驱动企业业务蜕变发展的基础。在企业级的数据治理项目中,数据质量管理是其中重要的一环。
一、关于数据质量
在解释如何保障数据质量之前,我们先要给数据质量下一个定义:
“数据质量,指的是在组织业务,管理要求下,符合数据使用者满足业务,管理需求的评价方式。”
其中隐含了两层意思:
1、数据质量是一种评价方式;
2、数据质量要满足使用者需求。
举例来说,就像人们从各个角度诸如手机外形、材质、内存、性能等各个方面评价一部手机是否合用一样。如果从数据使用者的角度来看数据质量,就是看当前数据的特性能否满足企业做数据分析或挖掘等一系列需求。
当数据出现内容缺失、不真实、前后不一致等问题时,数据质量就出现了问题。比如某快消品推广人员为了应付公事假造了一些调研内容,且与市场上真正消费人群的喜好相悖。而如果销售人员将这些虚假的统计数据作为参考,并制定销售计划,最终很有可能会给企业造成严重的经济损失。
反之,当数据质量提高,对应数据内容变得详实、准确、完整时,就能够更好地服务于企业的各类决策,推动企业业务有序正向发展。
二、数据质量问题
(一)产生原因
随着企业业务的发展,数据类型、数据来源越来越丰富,数据数量也随之快速增长,企业在数据管理工作和数据流程中面临着越来越多的数据质量问题。在企业内部,数据问题可能产生于从数据输入到数据存储、管理、使用的各个环节。
在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量,比如业务部门口径不统一、输入不规范等。除此之外,数据的收集、加工、存储等过程也会由于技术问题而对数据质量产生影响。很多时候,由于相关人员对数据重视程度不足、管理不完善,难以对数据质量问题进行监控和追责,也会导致企业内数据质量偏低。
所以,业务、技术、管理等多方面的因素都有可能会影响到数据质量,最终可以总结为主观、客观两方面因素:
主观因素:指数据各环节处理中,由于人为的疏忽或者管理缺陷等,导致数据错误,数据遗漏,数据丢失的情况;客观因素:指在数据流通的各个环节,由于系统异常或者流程设置不当,引起的数据质量问题。
(二)具体内容
一般来说,企业会遇到的数据质量问题可以总结为以下几点:
● 数据规范性:指数据是否按统一格式存储。数据的内容、格式和展现形式,都必须符合数据定义和业务定义的要求,不能违反数据标准规范。
● 数据准确性:指数据和信息的内容是否正确,有没有无效数据、错误数据或超期数据等。真实可靠的原始统计数据是企业统计工作的灵魂、是一切管理工作的基础、是经营者进行正确经营决策必不可少的一手资料。不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。
● 数据唯一性:指数据是否存在重复,或者数据的某些属性是否重复。用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。
● 数据完整性:指数据是否丢失,或者有不可用的情况。比如模型设计不完整、数据条目不完整、数据属性不完整等情况。不完整数据的借鉴价值会大大降低,这也是数据质量问题中比较基础和常见的一类问题。
● 数据一致性:指数据的值在信息含义上是否有冲突,也就是相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。
● 数据关联性:指关联的数据是否缺失,或者未建立索引。例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
三、如何有效保障数据质量
中翰软件在数据治理领域深耕多年,于丰富的数据质量管理经验中,总结出了一套独特的管理方法,主要体现在以下三点中:
1、构建全视角管控的静态数据中心,全面保障数据质量
一般人们会通过基本、组织和业务三个视角信息对数据进行描述。
基本视角信息是对某条数据的基本特征信息的描述,组织视角信息是指某条数据在不同的组织范围描述的不同信息,业务视角信息是指某条数据在不同的业务场景下描述的不同信息。当然也可以从共享的角度去描述一条数据的信息,也就是常提到的主数据。
作为国内企业静态数据中心管理理念的首推者,中翰认为,从全面解决数据质量问题的角度出发,构建360度全视角管控的静态数据中心,对全部三类视角的数据质量进行管控才是最好的选择。
全视角数据的描述包括基本、组织和业务三个视角的数据描述,以物资数据举例,具体结构形式如下图:
2、通过技术+行为的手段深层次保障数据质量
纯技术的手段并不能完全实现对数据质量的管控,因此,中翰认为,需要从行为(行为约束)入手去深层次解决数据质量问题。
所谓行为约束,是指对数据采集端的人的行为的控制,比如数据新增过程中的审核也是行为约束的一种。最好的行为约束首先应该在源端,也就是针对数据维护操作的人我们要严加“防范”,确保每个人都能深入到属性字段级别最准确地录入相关的属性取值,要确保专业的事由专业的人来做,而不是很多人希望的统一由一个人代劳维护所有或者某部分数据的信息,维护入口的统一不代表数据的统一和高质量,相反却掩盖了对数据的不专业导致的二次维护错误问题。
因此,需要在技术手段的基础上开启数据协同维护机制,强化数据源头责任,强化过程行为约束,更深层次地管控数据质量。如下图所示:
另外,众多企业的企业信息化建设经历了多年的发展,各业务系统中积累了大量的丰量(历史)数据,对现存的历史数据的清洗同样适用技术+行为的手段,通过对历史数据的全面梳理和规范,将质量有保证的数据准确发布到各业务系统中,确保各业务系统中历史数据的准确。
3、构建日常数据质量监测体系持续确保数据质量
导致数据质量产生问题的因素有多种,中翰希望能够打造一套针对数据质量的监测机制,把问题“扼杀”在摇篮阶段。
2018年3月15日,中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会发布了GB/T 36073-2018数据管理能力成熟度评估模型,此模型对企业的数据管理能力进行了分级,根据不同等级提出不同的改进、发展建议。但是这种评估成本较高,周期太长,甚至很多企业很多年才能评估一次。
为了确保数据质量的持续性良好,中翰认为,数据治理项目实施后需要构建一个基于大数据行为分析的数据质量监测平台,而不是传统意义的基于属性字段级的技术验证。平台需要具备实时探知数据质量的能力,并且把数据质量量化展现,同时提供问题数据处理的通道。数据质量监测平台的具体逻辑架构如下图所示:
由上图可以看出,大数据行为的质量监测是对数据的一致性、完整性、合规性、冗余性、有效性和及时性6方面质量标准的深层次的大数据行为分析,此方式结合复杂逻辑的算法而非传统的正则表达式等,最终通过图和表的结合高效展现数据质量结果,提高数据质量的可视化效果。(山东中翰软件有限公司)