新闻热线:010-63691890 投稿邮箱:cehsds@126.com

企业数据治理-我们该走向何方?--摘自《企业数据治理那些事》

1

国际数据管理协会(DAMA)的《数据管理知识体系指南》一书中对数据治理进行了严格、详实地定义,目前基本成为数据治理行业的指导大纲。但是也只是指导型的内容,具体的操作方式还会需要我们继续探索、研究。

目前国内市场存在的多家数据治理厂商(序言中有说明)大体分为两个方向,一是面向企业,再就是面向政府、金融、电信等行业。这里有个很大的误区,就是很多人认为面向政府、金融的数据治理产品可以替代面向企业的数据治理产品,这个错误由于数据治理行业的火热而被掩盖了。相对而言面向政府、金融、电信的数据治理产品要求的技术含量要高一些,处理的数据量要大一些,但是处理数据问题的深度要浅一些,因为这几个行业没有复杂的物资数据(模型分层级且非常多)存在,所有数据(如客户、人员等)的模型都是单一的,也就不存在深层次的数据质量问题。所以在企业数据治理中一旦遇到深层次的数据质量问题此类产品就束手无策了。

但是,从产品的功能结构上我们还真的不好鉴别其优劣,所有的产品似乎有包括什么元数据原理、数据质量管理、主数据管理、数据生命周期管理、数据交换管理、数据清洗管理等,齐全的功能就造成了选择的难度,也造就了数据治理行业的浮华。

企业数据治理,我们一直坚信除了要有广度以外,还有更重要的是深度,必须解决深层次的问题才能算得上长久之计。这里没有评判任何产品的好坏,只是想说明我们要选择适合自己企业的数据治理产品。

结合国内企业实际,我们认为企业数据治理应把内容简化分为“数据环境治理、数据质量治理、数据安全治理、数据交换治理、数据运维管理”五部分。并且企业内的数据包括静态数据和交易数据两部分。所谓的数据治理也应该指静态数据的治理,因为纯交易数据(数字或数额)正常不会出现质量问题。

因此,数据治理的方向应该依据以上5部分且满足以下7个关键点。

1. 构建“一三一”的数据治理整体架构确保数据治理的整体性

制定数据治理架构是数据治理的核心任务,好的数据治理架构可以确保数据治理的整体性,实现彻底、完善的数据治理,更好地达到数据治理的预期效果。

因此应该构建包括一个体系(数据标准体系)、三个环境(治理型环境、分析型环境、知识型环境)、一个架构(面向服务的集成架构)的数据治理整体架构,如图所示。

2

数据标准体系:是企业数据治理架构中的核心底层部分,通常也指数据环境,包括数据分类及编码标准、数据模型标准、数据质量管理标准、数据安全管理标准、数据交换标准,对应落地平台建议具备管理数据标准体系的过程和结果的功能。不建议只管理数据标准体系的结果和审核流程,不管理体系的构建过程;

治理型环境:是指数据全生命周期管理的过程,是解决数据质量、安全等的核心功能部分,包括体系构建、静态数据中心管理(数据建模管理、数据编码管理、数据质量管理、数据日常管控)、数据交换管理、数据清洗管理、数据保养管理(数据评估监测)。对应平台建议企业数据治理平台,不建议主数据管理平台

分析型环境:是指基于数据仓库的各种主题分析,是提供数据展现服务的核心功能部分,如运营分析、资产分析、财务分析、人力资源分析。对应平台包括BI决策支持平台、数据仓库、ETL。

知识型环境:是指企业整个数据治理的知识体系架构,非传统的企业管理或者某专业知识管理,是提供数据治理能力的核心组成部分。数据治理知识可以实现知识驱动数据管理业务、驱动数据管理岗位、驱动数据应用的全面知识管理体系。对应平台:数据规划平台。

面向服务的集成架构:是指数据的采集、分发、集成以及业务重组等,是数据交换的核心功能部分,主要包括静态数据交换管理、ETL、企业服务总线ESB、业务流程引擎BPM。对应平台:数据交换平台、ETL、ESB、BPM。

2. 通过全方位数据标准体系的重构彻底改善数据环境

从不同的维度可以把企业内的数据分为分析型数据(趋势、计划、指标数据等)、交易型数据、共享(主)数据、业务场景数据4大类,如图所示。

3

数据的质量问题很大程度取决于数据所处环境的状况,因此需要从根本上打造一整套全方位的数据标准体系以确保数据质量的可控制性、可持续性。所谓的全方位就是指包括以上4大类型数据在内的标准体系,而非是只有主数据的标准体系。

数据标准体系内容包括数据管理组织、制度、流程、考核机制,数据安全、质量管理体系,数据分类、编码体系,数据交换规范体系等,如图所示。

4

3. 构建全视角管控的静态数据中心全面解决数据质量问题

通常我们看一个物体从不同的角度会有不同的形状、内容等,针对数据的描述我们也可以分为不同的视角信息,一般我们会把数据的视角分为基本、组织和业务三个视角,基本视角信息对指某条数据的基本特征信息的描述,组织视角信息是指某条数据在不同的组织范围内描述的不同信息,业务视角信息是指某条数据在不同的业务场景下描述的不同信息。

当然我们也可以从共享的角度去描述一条数据的信息,这就是我们常提到的主数据。

从全面解决数据质量问题的角度出发,构建360度全视角管控的静态数据中心,解决全部视角数据的质量才是最彻底,才是最好的方向。

包括基本、组织和业务三个视角的数据描述,以物资数据举例,全视角数据描述具体结构形式如表所示。

表1-2

5

数据质量在数据治理中的分量不言而喻,但是目前解决数据质量的主流方法几乎全是技术手段,主要有三种方法:

4. 通过技术+行为的手段深层次解决数据质量

第一种方法,针对数据产生的源端进行控制,指通过针对属性字段取值的格式、上下限、枚举值、从属关系、关联关系等的判断进行数据质量的控制,当然不否定这样的方法可以解决的大部分数据质量问题,我们做过详细的调查这个大部分差不多是70%左右。剩余的30%左右包括五花八门的错别字,无意的类别放错,还有部分是为了某些利益有意写错、放错等,这个时候会有人说“我们有**词库,可以解决错别字问题”,快拉倒吧!你词库中的都是曾经犯过的错误,你怎么知道下一个错别字写成什么样?

第二种方法,针对数据全生命周期的末端(数据采集进入数仓阶段)进行控制,并且这种方法已经随着数仓、BI的发展存在了N年了,说到这里大家可能都知道了,没错就是ETL过程对数据质量的控制,虽然这种方法解决问题的比例甚至都达不到40%,但是在新的方法出现之前几乎“横行”世间近20年,属于标准的针对末端的数据质量的控制

第三种方法,也是针对数据全生命周期的末端(数据采集进入数仓阶段)进行控制,但是方法就比较高级了,那就是利用大数据行为分析及AI(人工智能)技术,比ETL解决问题更彻底一些,这就是本书在1.1.6章节中介绍的末端数据治理模式。随着数据中台的兴起,大家对这种模式逐步有了深入的了解和应用。但是由于咱们中国汉字的博大精深,此模式针对数据质量的控制还是无法达到源端治理模式的效果,当然这也是一些战略或财务管控型企业的无奈选择(因为无法控制数据源头),详见本书1.1.6章节相关介绍。

事实证明,纯技术手段对数据质量的影响确实存在很大的缺陷,因此我们需要增加从行为入手去深层次解决数据质量。

所谓行为控制,是指对数据采集端的人的行为的控制,比如数据新增过程中的审核也是行为约束的一种,虽然效果不太理想但也心里安慰了很多“梦中”人。最好的行为控制首先应该在最源端,也就是针对数据维护操作的人我们要严加“防范”,确保每个人都能深入到属性字段级别最准确地录入相关的属性取值,要确保专业的事由专业的人来做。而不是很多人希望的统一由一个人代劳维护所有或者某部分数据的信息,维护入口的统一不代表数据的统一和高质量,相反却掩盖了对数据的不专业导致的二次维护错误问题。

因此,需要在技术手段的基础上开启数据协同维护机制,明确并强化数据源头责任,强化过程行为约束,如图所示。

6

另外,大部分企业信息化经历了多年快速的发展,各业务系统中积累了大量的历史数据,对现存的历史数据的清洗同样适用技术+行为的手段,通过对历史数据的全面梳理和规范,深层次解决数据质量后准确发布到各业务系统中,保证各业务系统中历史数据的准确。

5. 构建日常数据质量监测体系持续确保数据质量

在前边的章节中已经详细介绍过数据质量的重蹈覆辙问题,当然导致数据质量重蹈覆辙的因素有多种,但如果我们能打造一套针对数据质量防微杜渐的监测机制,把问题扼杀在摇篮阶段,也是可以很大程度的减缓此问题的发生的。

2018年3月15日,中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会发布了GB∕T 36073-2018数据管理能力成熟度评估模型,此模型对企业的数据管理能力进行了分级,根据不同等级提出不同的改进、发展建议,挺好的!但是这种评估成本较高,周期太长,甚至很多企业很多年才能评估一次,哪怕国家鼓励或者强制。

高速发展的社会、企业,快速变化的数据质量需要我们具备快速响应的能力,这个能力不能只是方法层级的,需要有对应的工具才可以。360安全工具短短几年从那么小发展到现在的规模,主要就是因为它的灵活以及快速反应非常适合当下人的心理。

为了数据质量的持续性良好,数据治理项目后我们需要具备一个基于大数据行为分析的数据质量监测平台,而不是传统意义的基于属性字段级的技术验证。平台需要具备实时探知数据质量的能力,并且把数据质量量化展现,同时提供问题数据处理的通道。数据质量监测的具体逻辑架构如图所示。

7

上图可以看出,大数据行为的质量监测是对数据的一致性、完整性、合规性、冗余性、有效性和及时性6方面质量标准的深层次的大数据行为分析,此方式结合复杂逻辑的算法而非传统的正则表达式等,最终通过图和表的结合高效展现数据质量结果,提高数据质量的可视化效果。

6. 构建基于场景的数据服务体系推进数据资产化管理

大数据时代的来临使得数据的价值逐步显性化,也被各企事业单位更加重视。数据资产管理当前也已经成为IT界的一门新兴学科被广泛研究。DAMA将数据资产管理(Data Asset Management,简称DAM)定义为规划、控制和提供数据这种企业资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方案和程序,从而控制、保护、交付和提高数据资产的价值。

数据作为一种“资产”,和传统意义上所管理的资产并不相同,其可以归纳为5大特征,即虚拟性、增值性、时效性、共享性、安全性,具体如图所示。

8

数据资产的5大特征的核心是共享和价值,并且有时效性的共享服务价值会更高。目前企业内数据资产化管理还处在初级阶段,长期以来对数据的私有化价值意识比较淡薄,企业数据资产化管理的路还很长,需要慢慢地从数据的共享服务开始让大家享受到数据资产的红利。

数据服务在企业内有多种形式,主要包括对人的数据服务、对业务的数据服务、对数仓的数据服务等。

1) 对人服务:统一查询, 单一视图,如图所示。

9

2) 对系统服务:雪花状数据交换服务架构,如图 所示。

10

3)  对数仓服务:如图所示。

11

7. 构建基于过程的知识体系确保数据治理能力的有效转移

关于知识,很多人都认为应该是知识密集型企业才会关心的,在数据治理行业只要简单的知识转移下,我们能用好工具就可以了,甚至很多人认为数据治理一定要长期靠外力,企业自身的能力有限根本不可能治理好数据。

这是一个很大的误区,数据治理可以借助外力,但一定不能长期借用外力。借用外力应该只是一个项目的过程,数据治理项目只是数据治理工作的起点,项目后未来长期的数据治理过程中如果继续依靠外力,高昂的成本企业根本无法承受,其实也没必要付出这个成本。

因此,企业具备数据治理的能力非常重要,那么企业应该具备什么样的能力呢?根据多年的经验总结,企业数据运维管理阶段需要具备针对数据管理体系的拓展和完善能力,以便支撑未来企业发展后的数据扩展或管理变更的需求。

如何才能获得这个能力呢?

同样是经验告诉我们,能力需要有足够多的知识支撑才可以具备,并且是全方位的知识,尤其是过程知识。针对数据管理体系的拓展和完善工作最关键的就是弄清来龙去脉以便延续以往的思路,防止标准体系的走偏和分裂。

因此要做好此工作需要长期积累大量的过程知识,构建基于过程的知识收集和推送体系是关键中的关键。具体的过程知识体系结构如图所示。

12

(山东中翰软件有限公司)

发展改革·区域聚焦

山东鄄城县发改局党组理论学习中心组举行贯彻落实总体国家安全观专题学习研讨
山东庆云70个重点项目集中签约、开竣工投产
东营河口:多部门开展工程建设项目招投标工作联合专项检查
东营市河口区发改局召开支持小微企业融资协调机制动员部署会议
山东栖霞:持久发力稳成效,奋力攻坚抓经济
山东东平:县城发展助推新型城镇化建设
山东省发改委对外开放处党支部组织开展“践行开放、聚力海外”联合主题党日活动
山东省发改委高技术处党支部开展“不忘初心、牢记使命”三级联动主题党日活动

绿色能源

山东庆云:一节电池的逐“绿”创新
山东庆云:充电桩下乡走上快速路
山东临沭加快塑造高质量发展新优势
临沂兰山助力点燃“第一把火”,保障群众“过暖冬”
全国煤炭行业“劳模工匠助企行”暨第二届“院士·工匠论坛”系列活动在山东举办
烟台市牟平区发改局开展三季度能源类重点项目实地调研活动
三峡能源庆云储能电站:充一次电,可供6千户家庭用一个月
全国资源型地区转型发展现场会在枣庄召开

齐鲁粮油

准备仓容1235万吨、资金288亿元,2024年山东秋粮收购工作全面展开
2024年山东夏粮集中收购顺利收官!粮食市场运行平稳、流通顺畅
强化监管措施,山东省粮食和物资储备局三措并举维护粮食收购市场秩序
山东:严把粮食质量关,加强粮食质检体系建设
济南市开展秋粮生产和市场情况调研
枣庄市市中区成功举办首届国有粮食仓储企业粮食储备岗位业务技能“大比武”
山东:粮食储备管理确保平时备得足储得好,关键时刻调得出用得上
藏粮于“技” 山东推动实现粮食“住得好”“过得好”“管得好”

价格调控·价格服务

山东平邑:开展普惠性养老服务定价成本调查工作
山东沂源:与上周相比,菜蛋价格略有下跌
济宁:11月上旬肉禽蛋价格涨跌互现,蔬菜价格持续回落
临沂:肉类价格稳定,鸡蛋蔬菜价格下降
临沂商城价格指数环比分析 (11月7日—11月13日)
山东平邑:粮油肉蛋价格稳定,蔬菜价格下降(11.07-11.14)
山东省价格认证中心调研日照大宗商品价格
坚持问题导向 青岛积极探索物业服务收费改革

价格监测

发展视觉