企业数据治理的八步法则--摘自《企业数据治理那些事》
明确了数据治理的方向后,我们开始探讨数据治理的具体方法、路线。近20年的数据治理经验使得我们有机会总结出一套基于数据治理项目前、中、后的数据治理法则,本法则包括八个步骤,也代表了数据治理工作的八个方面,缺一不可。
1. 现状自查——摸清自身情况
数据管理现状的自查是未来开启数据治理的基础工作,是让领导下定决心的第一步。
数据管理现状的自查是指通过对数据管理组织、数据管理制度、数据管理流程、数据分类、数据编码结构、各类数据模型、数据质量标准、数据安全标准、数据交换标准以及数据质量状态、数据安全状态、数据交换状态等方面进行全方位的详细了解、调查,同时要了解相关人员对数据管理的诉求。
现状初略自查工作的开展主要有企业IT部门发起,当然也有企业运营或者管理部门发起,发起部门一般也是未来数据治理项目的发起及主导部门。
数据管理现状自查的具体原则:
自上而下,从集团层开始了解有没有统一的体系标准,执行情况如何;直至末端,除向各级部门领导了解外,一定要涉及各部门的具体操作人员,多听劳动人民的呼声;针对性强,只针对数据管理现状了解,不要过多的牵扯业务管理等;不宜过细,这个自查只是初步的了解,不要因过细而纠结很多;明确诉求,除了了解现状还要收集各数据管理人员的诉求,要引导出具体的诉求。
通过对数据管理现状的初步了解,至少要弄清以下内容:
目前企业的数据管理组织有没有?什么形式存在的?数据管理制度有没有?有没有被执行过等?数据分类、编码、模型、标准、交换规范、运维体系等有没有,都由哪些层级的组织负责,目前执行的结果如何等?企业内有哪些数据?每种数据都存在哪?是否有数据不一致、不完整、不合规、一物多码等问题存在?数据访问、服务安全机制有没有?数据开放程度如何等?业务系统间数据交互的现状是什么样的?都涉及什么样的接口机制等?日常管理中如何发现数据质量的问题?对有质量问题的数据是怎么处理的等?
另外,可以根据以上情况结合国家2018年发布的GB∕T 36073-2018相关的标准,最终就可以很清晰地感受到企业内的数据管理处在一个什么等级,数据治理的紧迫性是否很强等。
2. 精心筹备——做好数据治理项目的启动工作
当企业决定要开展数据治理后,真正的准备工作就来了,大家都知道顽疾要想痊愈,肯定是非常的难。企业多年来积累下来的数据质量问题,要想彻底全面的解决同样是一个非常繁重的工作,周期长且成效很难显现,急于求成或者力求一步到位很容易出现半途而废的情况,因此项目启动前的准备工作是相当的重要和必要的,更需要有一定的策略和方法。
要想成功启动一个数据治理项目具体的准备内容和方法如下:
获取领导支持
首先,数据治理项目已经被公认为是企业中的高精尖项目,此类浩大的工程获得高层领导的支持是必须,甚至是“一把手”的直接参与,这是项目成功的基本保障。
那么,如何才能获得高层领导的全面持久的支持呢?这个问题值得进一步探讨,多年的经验告诉我们,“走出去、请进来”是改变领导传统思维的有效方法之一,再就是给领导汇报前要充分准备好因数据质量问题造成的企业相关管理问题、痛点等,并提出合理的解决方案。当然,收集问题及方案提供除了IT相关理念外还要重点参考业务管理、数据应用分析以及相关新技术等。
找准管理“痛点”
这么繁杂的项目,怎么样才能精准的找出“痛点”呢?
根据我们的经验,首先要从数据规范的角度出发,然后精准匹配业务场景(这里要注意,一定要匹配业务场景,也就是把数据规范放到业务场景中去,切忌为了规范而规范。)。最终以数据规范为基础,业务场景为方向,数据应用分析为目标,找到真正关键、准确的“痛点”出来。通常来讲,企业因数据质量问题造成的管理“痛点”包括,诸如数据报表不准确、采购出错、仓库账实不一、客户满意度低、售后服务延迟等问题。
选择起点、明确目标
下一步我们就要开始选择合适的数据治理工作开展的“起点”,并最终明确数据治理的相关目标,如下表所示。
起点与目标明确后,接着就要确定治理的原则和范围,具体如下:确定治理原则,框定治理范围以静态数据管理为关键;以元数据管理为基础;由于主数据的动态特性,强化私有静态数据管理,360度全方位立体管控,建立企业级静态数据中心;完善指标数据管理体系,改善动态交易数据的存储、分析机制,推行敏捷BI的全面使用,建立企业数据中心。立项申报、厂商选择
有了领导支持,并且以上前期准备工作都完成后,我们就来到了关键的节点---项目立项,立项申报最主要的工作就是要编写一套出色的《数据治理项目立项报告》,内容要包括数据治理项目的背景、意义,数据治理的必要性,数据管理的现状,数据治理项目的目标规划,数据治理项目的实施方案,数据治理项目的预算,数据治理项目的价值预估等。
项目立项申报的同时,我们还要考虑由谁去做这个项目。首先从企业自身的角度出发衡量自身能力,也就是先判断企业自身是否可以通过努力完成这个数据治理项目,衡量的标准主要包括如企业内是否有人懂数据治理?企业是否有相关部门可以主导整个项目的开展?企业相关人员参与项目的时间是否具备?企业内是否具备相关技术支撑项目的顺畅开展?企业是否具备相关的工具以便实现体系规范的落地等?如果感觉一切都可以,那就挽起袖子大干一场吧!如果衡量后感觉不可以,那建议引入外援,让专业的数据治理公司参与进来,通过正规的“治疗”以致痊愈,具体的外部厂商的选择标准详见“4.3.3”章节内容。
3. 全面排查——开展项目调研分析
此处的全面排查和前边2.1章节的初略自查有本质的区别,前边的自查是企业自己在没有外力的前提下对数据管理现状进行初略的全面了解,而本章节的项目排查首先是借用了外部专业厂商的力量,再就是从项目的角度出发进行的有针对性的详细调研、分析。
项目招标工作完成后,随着厂商的入场,启动会的召开,首先进行的就是调研工作,具体的调研的方法和内容如下:
调研方法实地走访;集中会议交流;线上问卷;电话、网络交流。调研内容目前数据管理现状;目前数据管理对业务管理的影响;目前数据管理对数据应用分析(报表、BI、大数据等)的影响;目前数据管理对未来企业数据战略规划的影响;各级人员对数据管理的意见和建议。
另外,调研的过程要时刻想着收集直接的一手资料,不管是制度、模型、流程等,还是一些实际的数据以及数据质量、安全的问题等,反正是有啥都统统拿来,包括纸面的、电子的,甚至图片等。
整理收集来的这些资料肯定是个繁琐且量大的活,这个时候要拿出真本事来了,要从这些里面找出问题,毕竟要出具合格的“诊断结果”--《调研分析报告》还是不容易的。报告内容应包括企业数据治理背景、调研过程(包括调研时间、人员、会议情况、资料收集情况等)、数据管理现状描述、数据问题分析、行业对标分析、数据治理建议等。
4. 构建数据管理体系——重塑数据管理标准
项目调研完成后,根据《调研分析报告》以及收集的相关资料开始进行本项目最难的一个环节-体系咨询,数据管理体系是企业数据治理的依据和基础,也经常被理解为企业数据所处的环境,企业数据环境的好坏直接决定了数据质量的优劣,数据管理体系由数据管理组织、制度、流程,数据模型体系,数据质量管理标准,数据安全管理标准,数据交换管理体系5部分组成。
本环节核心是要重新构建企业的数据管理体系,所谓的重构就是要打破传统,并且要依据标准开展。
重构数据管理体系的原则如下:
首先参照《DAMA数据管理知识体系指南》;借鉴数据治理厂商多年的数据治理经验;尽量选择有多年经验的行业专家主导或参与;参照国际标准、国家标准、行业标准、企业标准等;数据管理体系定稿前要全面、详实地讨论,线上保留全部过程讨论内容;重点听取一线或业务部门建议、意见,切忌高高在上。
通过以上方法可以制定出一套既满足数据管理要求又不违背业务逻辑的全新数据标准体系,切记新的数据标准体系一定要科学、合理、完整、实用。
最终要实现标准体系的系统落地,切忌咨询后的成果只留在纸面或者电子文档中。
5. 存量数据改造---解决已有质量问题
数据标准体系构建好并系统落地后,接下来就是要进行存量数据的清洗工作。
数据清洗就是指对存量数据的质量改造过程,主要是解决存量数据的不一致、不完整、不合规以及冗余的问题。通过存量数据的改造彻底解决数据质量的历史遗留问题,为未来数据新增时的查重奠定基础。
数据清洗的原则及方法:
直接从企业自己存量数据入手改造,切忌依据行业内其他公司的标准数据;遵循项目中咨询出的数据模型体系标准进行存量数据的质量改造;借用相关的数据清洗工具,尽量不要手工处理,量大容易出错;合理分工,根据数据所属关系遵循谁的数据谁清洗的原则,专业的人做专业的事;理好优先顺序,先清洗着急使用的数据,也可以什么时候用什么时候清洗,把数据清洗工作拉长,减轻不必要的压力。
数据清洗的结果是完善了数据,建立了冗余数据的映射关系库,然后可以根据冗余数据映射关系库到业务系统中进行问题数据的陆续停用,当然也可以把完善后的数据更新到业务中去。
6. 完善数据交换架构——彻底打通数据孤岛
数据交换(指数据在各业务系统间被采集、分发的过程)架构是指是一系列相关的规则约束,用于指导数据交换各个方面工作的设计。数据交换架构中的数据交换平台实现各业务系统间的数据交换过程,实现数据在各系统间的顺畅流动,彻底消除企业多年积累的“数据孤岛”。
数据交换属于比较技术的工作,需要第三方系统厂商的技术配合,当数据管理体系重构后就可以开展此工作,可以和存量数据的改造工作并行。此工作首先要进行交换标准体系的梳理,然后构建基于静态数据中心的数据交换架构,最后通过搭建专业的数据交换平台进行技术实现。
构建数据交换架构的原则和方法:
梳理并制定数据标准体系(数据管理体系的一部分),具体梳理与制定原则、方法详见6.1.5章节。并结合数据交换标准体系构建基于静态数据中心的数据交换架构(具体详见8.2章节);必要时把第三方厂商请到项目现场进行交换规则的讨论、定义;利用专业的数据交换平台技术实现,不建议直接使用ESB交换静态数据,有点大材小用。
当定义完数据交换规则后,企业的雪花状的数据交换架构就会初现,数据治理平台在中间,其他业务系统在周围,具体详见8.2章节相关内容。
本阶段结束后,其实数据治理项目的工作已基本完成,可以进入项目的试运行和验收工作了。
7. 行为管控——优化增量数据质量
项目试运行和验收的同时,数据管理工作就正式进入了正式的日常操作阶段,也是数据生命周期的核心阶段。
纯技术手段的数据质量验证并不能完全满足现阶段企业对数据质量的更高要求。因此,需要通过针对行为管控的数据质量优化方式,解决更深层次数据质量问题(如错别字、类别选择错误等),为企业精细化管理以及精确化分析提供基础。即:在技术手段验证数据质量的基础上对操作(指数据采集操作,如数据维护等)行为进行控制,优化数据质量,以及通过大数据行为分析,检测、探知、处理已生成数据的质量问题。
增量数据相对存量数据而言,二者以数据治理项目中数据治理平台正式上线的节点来划分,上线前企业已有的所有数据都是存量数据,上线后新增的数据都是增量数据。另外,只有增量数据的质量需要再优化,存量数据只需要数据治理项目中一次清洗即可。
针对增量数据质量我们可以通过行为管控进行优化的阶段有两个,一是在数据采集/验证(数据维护/审核)阶段,二是在数据生成、分发阶段(关于数据全生命周期如图2-1所示)。
通过行为管控的方式解决数据质量问题的原则和方法:
数据维护阶段,依据相关业务岗位的人员录入本职数据的原则,把整条数据信息拆分成多个(或组)属性字段,通过将各专业属性字段(或组)分别授权给相关业务岗位人员进行维护实现优化增量数据质量;数据生成后,基于专业的数据评估监测平台,依据大数据行为的数据质量分析、监测,再次深层次探知已存在于业务系统中的数据质量问题,如发现问题实时加以改造、处理;基于专业厂商长期的数据治理行业积累,建立基于机器学习的数据质量判断模型,逐步提高数据质量问题的探知能力。
通过行为管控,首先可以减少因人为的错误导致的数据质量问题,再就是可以解决数据生成后依然存在的质量问题,实时的探知数据质量的异动,并且可以把数据质量问题量化展现给运维管理人员,彻底改变运维管理的模式。
8. 能力转移——保障高效的数据运维管理
关于企业应该具备数据治理的能力,一直没有得到应有的重视,很多企业对于数据治理能力构建目前还都处在项目结束后的汇总式知识转移模式,对数据治理能力的要求比较简单,因此出现了数据治理项目后留下的只是数据运维人员对数据治理平台的操作能力,对数据标准体系的扩展、完善几乎是无能为力,数据运维管理变得很艰难。所以必须要实现数据治理能力有效完整的转移。
数据治理能力的转移来源于数据治理知识的有效转移。经验告诉我们,数据治理项目具有很高的难度和特殊性,只有数据治理咨询成果的转移对企业数据治理能力的提升不明显,因此传统的知识转移无法让企业具备有效的数据治理能力,无法有效支撑数据的运维管理。因此,需要增加数据治理知识的生产、积累、存储,并且实时地注入企业数据运维人员的操作界面上,让运维人员在进行数据管理体系拓展操作时可以借鉴、参考数据治理咨询时的思路,实现数据管理体系拓展的无缝衔接。
数据治理知识来源于数据治理项目过程中对调研、咨询过程知识的收集、加工和数据治理项目后日常管理的知识采集、沉淀,也称数据治理知识的生产。
数据治理知识的生产及服务流程如图所示。
(山东中翰软件有限公司)