数据治理:如何实施数据清洗,提升数据质量?
一、什么是数据清洗?
在数据治理工作中,为了彻底解决企业的数据质量历史遗留问题(数据不一致、不完整、不合规、数据冗余等),必须对存量数据进行改造,实施“数据清洗”工作。
“数据清洗(Data cleaning)”一词,是数据治理领域中的专业术语。从字面意义上理解,“数据清洗”就是将数据上“脏”的部分清洗干净,让数据变得干净整洁可用。从专业角度来说,对于企业中的存量(历史)数据,“数据清洗”能够补充其缺失的部分、纠正或删除其不正确的部分、筛选并清除其重复多余的部分,最后将其整理成便于被分析和使用的“高质量数据”。
中翰将数据清洗的工作内容总结为以下两点:
● 问题数据的补充、调整;
● 冗余数据的查重、映射。
二、数据清洗的流程和策略
企业的数据质量问题经过发展多年的累积,清洗难度较大。要彻底“洗掉”企业存量数据中的“脏数据”,且有效避免“脏数据”再次出现形成污染,必须按照一定的原则和方法开展实施工作。
对此,中翰凭借多年的工作经验,不仅总结制定出了一套科学有效的实施流程和策略,还研发了基于中翰数据治理平台的数据清洗平台组件,显著提高了数据清洗改造的工作效能。
(一)分析存量数据质量
对企业存量数据质量的分析包括数据一致性、完整性、合规性和冗余性等维度。原则上应借助专业的数据分析工具,对企业的全部数据进行质量分析。分析时应借用相关算法进行大数据行为分析,实现结果量化并进行可视化呈现(如图一),最终借助外部咨询专家总结问题、提出意见,完成《存量数据质量分析报告》的制作,从而有效指导数据清洗策略、规则等的制定。
企业存量数据质量的分析工作是否到位,很大程度上决定了数据清洗改造的成功与否。
(二)制定清洗策略
企业在制定数据清洗策略时,要考虑两方面内容:
1.根据企业自身实际情况选择不同数据清洗模式,具体方法见图二:
2.根据数据的不同类型选择有针对性的清洗方法,具体方法见图三:
(三)制定清洗规则
数据清洗策略的制定属于宏观层面上工作方向的确定,落实到具体实施工作中,还需要确定一些工作细则,以支持实际清洗工作的顺畅有序进行。
数据清洗规则包括清洗流程、清洗分工、清洗内容、方法手段等几个方面,需要具体情况具体分析,在此展示一些普适性工作流程(图四)和某家公司数据清洗的工作内容(图五)和分工(图六)作为示例:
(四)在技术支撑下实施数据清洗
准备工作完成后,数据清洗的实施工作需要依靠一定的技术手段来进行。中翰自主研发的数据治理平台,包含数据清洗平台组件,可以实现:
1.通过数据质量模型管理,对导入的存量数据进行质量核查;
2.通过流程管理功能,实现存量数据改造的工作分配、监控;
3.相关责任人可根据权限补充完善问题数据,之后自动进行冗余数据的发现并为其建立映射关系,同时生成一条新的标准数据。
(五)数据清洗后的业务系统处理
存量数据清洗并产生映射关系后,数据清洗工作并未结束。最终还需要确定被清洗出来的问题数据的归属。有些问题数据还处在使用过程中,直接停用会对业务产生影响。根据以往经验,中翰规划了清洗后问题数据的处理方案(见图八),在工作中,可结合企业的实际情况进行调整。
(山东中翰软件有限公司)