段效亮: 企业主数据中心管理与实践(二)
中国经济导报、中国发展网记者 尹明波
段效亮,中国企业数据治理联盟秘书长,国际数据管理协会会员,中翰软件创始人之一。作为国内数据治理领域资深咨询专家,段效亮拥有15年以上IT行业从业经验,12年以上数据管理咨询、平台实施、数据保养等实战经验,参与并主持中国中铁、国家核电、天保控股、青钢集团、康尼集团等几十家国内大型企业集团的数据治理项目。
段效亮还独创国内及数据治理行业内多个第一:国内首推主数据管理平台、企业数据治理平台,物资数据清洗,静态数据中心管理 ,数据协同维护管理,数据多编码体系管理,数据规划管理,数据保养等理念和方案。
段效亮领衔的中翰软件,从2012年初开始联合已经实施主数据平台的相关企业进行了深入的探究,最终提出“主数据中心”的概念和主数据动态问题的解决方案。中国发展网近期连续六期刊发这位业内“大咖”对企业数据治理中主数据中心管理与实践的认识、见解和相关建议,试图为企业数据治理领域的研究发展以及应用辅以参考借鉴。
一、数据管理与数据治理
本文中定义的数据管理(DM)和数据治理(DG),类似中医(讲究‘管’)和西医(讲究‘治’)的本质思想。
本文认为管理乃长期管控的过程,属于长效机制,治理指某一时间段对数据的临时梳理措施和行为,是短期性针对数据质量的干扰动作。
长期的企业管理中,数据应该靠‘管’,不能靠‘治’。
二、企业数据组成
三、数据治理范围
关于在数据治理行业中的数据范围界定问题也是根据不同的管理方式而定,本书所说的数据治理范围是以主数据为核心的相对静态性的数据,其中包括:元数据、主数据(共享档案数据、静态共享业务数据)、私有档案数据、参考数据、指标数据、计划、趋势等分析数据等,不同类型的数据治理策略见下表。
第一节 企业数据治理的背景
2.1.1 时代的变迁
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,根据监测,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。
大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位由TB-PB-EB-ZB的级别暴增,这些数据早已经远远超越了目前人力所能处理的范畴。如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据分析时代来到了。
另外,“诺兰模型”从理论上印证了数据治理-信息资源规划开展时机的合理性。理查德·诺兰(Richard L Nolan)总结美国一些企业计算机应用的发展规律,提出计算机应用发展过程有六个阶段:初始阶段;扩展阶段;控制阶段;集成阶段;数据管理阶段和成熟阶段。
“诺兰模型”是对企业具有10至20年的计算机应用发展历程的总结,如图所示的曲线,是一种波浪式的发展过程。六阶段模型反映了企业计算机应用发展的规律性,前三个阶段具有计算机时代的特征,后三个阶段具有信息时代的特征,其转折点处是进行数据治理-信息资源规划的最佳时机。“诺兰模型”的预见性,被目前国际上许多企业或政务的计算机应用发展情况所证实。
近年来企业信息化的高速发展,使企业对数据质量的要求逐年提高,多年来积累下来的数据合规性、一致性以及数据冗余问题逐渐突出。因此,企业对公共业务术语的规范化、标准化,主数据的唯一性、及时性、标准性等的需求迫在眉睫。以便于满足企业的日常管理,同时使企业间的快速、顺利的重组兼并成为可能。
大数据的兴起伴随着数据存取控制的新型风险,为了确保防止黑客盗窃数据信息的风险,企业应该在转移到充分利用大数据的优势的同时,也相当有必要采取相关的安全措施来保护自己数据资产的完整性。
分散的数据管理模式已经严重阻碍了现阶段企业的快速发展,数据的集成、共享已经被企业列入了近期发展规划。
第二节 企业数据管理的方向
2.2.1 完善数据全生命周期管理
和其他任何资产一样,数据资产也是有生命周期,企业管理数据资产就是管理数据生命周期。
关于数据的全生命周期管理出现过不同的版本,主要是数据生命周期起点的界定问题,有认为从数据产生开始的,也有认为应该从数据新增开始的,结合两个观点以及企业信息化的发展状况我们在这定义数据生命周期的起点从数据的结构设计开始,也就是从信息资源规划(IRP)作为起点,把数据的结构设计/建模、质量监控、数据生成、存储、数据调用/移动、数据使用/分析、数据归档作为企业数据的全生命周期过程,具体见下图企业数据架构中的生命周期部分。
2.2.2 实现数据协同管理
企业高效一体化协同模型涵盖运营(价值链)协同、资源协同和数据协同三个层面。价值链是企业的核心业务链条,包括市场、研发、采购、物流等。人才、知识、资金、合同、订单是企业的关键资源。如图2-5。
数据协同表现的是信息化标准体系建设、数据集成与共享、数据、信息、知识一体化。数据协同体现在横向的数据集成与纵向的数据贯通。通过数据协同使企业的信息与资源、价值链深度咬合,从而提升企业协同运营的能力。企业数据协同涉及的四个层面具体如图2-6。
可以看出,上图中的标准层属于数据协同的基础层,从另外一个角度讲,标准层也就是数据的环境,很大程度上数据的质量取决于数据所处环境的质量。这里类似人和人所处的环境的关系,只有我们的环境美好,我们才能很少得病。
标准层:彻底净化主数据环境,如图2-7
2. 管控层:开启数据协同管理机制,强化过程监控,见图2-8。
3. 访问层:加速数据识别过程
1) 统一查询, 单一视图,见图2-9。
2)打造雪花状数据交换架构,见图2-10。
3)确保数据分析精确度,见图2-11。
2.2.3 建立企业级主数据中心
看到这里估计大家的疑问会来了,什么是主数据中心呢?未来的不是要建立数据中心吗,怎么又出来个主数据中心?大家稍安勿躁,这也是我们从2012年初开始研究的重点,下面我会进行详细的分析说明,尽量打消你的一切疑虑。
首先,要说明什么是主数据中心,我们要先从主数据开始讲起,老外们对主数据的定义为:表示业务实体对象的基准数据以及其被引用的关联属性数据。2010年主数据的概念被中翰软件率先引入中国并加以调整改善,使之更加通俗易懂。通俗后的主数据定义为:基础数据(静态或相对静态的数据)中两个及两个以上业务系统共同使用到的属性字段。此定义很快被证明了可行性和合理性,短期内被各厂家推广使用,这也就是目前国内主数据厂商对主数据的唯一标准定义。
但是,随着企业数据治理平台的逐渐被推广使用,一连串(比如主数据的动态性等)的问题就来了。随着企业的业务系统的新增和更换,原来被主数据厂商咨询出来的主数据已经无法满足新的业务系统的上线需求,需要重新进行主数据的识别和相关模型、流程等的变更操作,从而造成了主数据平台后期运维的成本居高不下,严重的违背了实施主数据平台的初衷。
针对此问题,中翰软件从2012年初开始联合各已经实施主数据平台的企业进行了深入的探究,最终提出主数据中心的概念和主数据动态问题的解决方案,具体见图2-12
主数据中心:包括清洗后的历史数据和新的标准、规范下新增数据,以及描述了他们的私有(组织或业务视图)和公有(编码属性等)属性、规则、贸易合作伙伴、类别、文档、地点、关系、配置信息等360度的信息集合。主数据中心作为企业主数据以及和主数据相关数据的核心数据库,承担着业务系统数据的采集、规范和分发服务,为业务系统提供规范的主数据信息。