段效亮: 企业主数据中心管理与实践(三)
中国经济导报、中国发展网记者 尹明波
段效亮,中国企业数据治理联盟秘书长,国际数据管理协会会员,中翰软件创始人之一。作为国内数据治理领域资深咨询专家,段效亮拥有15年以上IT行业从业经验,12年以上数据管理咨询、平台实施、数据保养等实战经验,参与并主持中国中铁、国家核电、天保控股、青钢集团、康尼集团等几十家国内大型企业集团的数据治理项目。
段效亮还独创国内及数据治理行业内多个第一:国内首推主数据管理平台、企业数据治理平台,物资数据清洗,静态数据中心管理 ,数据协同维护管理,数据多编码体系管理,数据规划管理,数据保养等理念和方案。
段效亮领衔的中翰软件,从2012年初开始联合已经实施主数据平台的相关企业进行了深入的探究,最终提出“主数据中心”的概念和主数据动态问题的解决方案。中国发展网近期连续六期刊发这位业内“大咖”对企业数据治理中主数据中心管理与实践的认识、见解和相关建议,试图为企业数据治理领域的研究发展以及应用辅以参考借鉴。
第三章 企业数据管理现状
针对目前企业数据管理的现状,段效亮先介绍这些年自己的亲身经历,从2009年到2015年这7年来他一直在感触着企业对主数据治理需求的变化:2010年初中翰首次把主数据概念引入中国并发布了中翰MDMv2.0版本(2009年是中翰物资编码管理系统),当时我亲自带着10多人的销售团队到山东的100强企业里面进行大范围市场调研,几个月过后我们得到的结论是企业不需要主数据管理。2012年夏天,我们又进行了一次类似的市场调研,并安排销售、咨询人员到处给企业交流主数据的必要性、科学性等,让人欣慰的是这次有了一些收获,好多企业已经认识到这个问题可以考虑。往后几年我们没有进行类似的调研,但是随着大数据概念的持续发酵越来越多的企业逐渐意识到了主数据治理的必要性,主动开始寻求解决方案甚至立项。
2010年大家的一致拒绝主要是由于对主数据概念的模糊、不理解和普遍企业信息化不成熟造成的。
总的来说,当前由于缺乏对主数据的有效控制,企业的主数据信息往往会有以下四个主要和普遍的问题:
一、数据不一致
由于企业内主数据的不一致,导致企业大量的资源浪费,包括时间、金钱和人力等。判断企业内一个客户的真正地址或者其他基础信息到底是什么并不能增加企业的收入,而且非常不幸的是,因为没有一个好的存储机制用来保存比对过的客户数据,这种客户数据进行一致处理的过程需要重复出现。
二、数据冗余
没有主数据相关的专业管理平台,企业内的每一个系统、应用,甚至每个业务部门都会有各自的主数据信息。最好的例子就是对客商数据的收集,客商的关键属性如客商名称、地址等信息在企业内各个角落都被重复记录着。在这个收集客商信息的过程中,很少会产生相同或者一致的结果。这就导致了数据冗余和数据质量过差的问题出现。
三、业务低效
散乱的主数据会导致各种业务低效的情况发生,如低生产力,低效的供应链管理,不一致的客户待遇,客户满意度低,浪费市场部门的努力等。一个采购人员需要综合几个业务系统去判断一个物资的真实面目,这不仅是低效的,而且很有可能由于信息的不全导致采购的物料无法满足生产部门的需求,造成生产进度的不可控,无法按期交付商品给客户,从而降低企业市场竞争力。企业内的各种工作都显示出,散乱的主数据管理严重降低了企业的效率。
四、不适应业务变化
企业内经常发生各种变化,如引入新的产品和服务,公司合并与兼并,新技术出现并成熟。这些企业内的各种变化都会导致企业主数据的变化,如果没有一套机制来管理这些变化,企业在数据不一致、不完整、不合规、数据冗余、业务低效等方面的问题就会不断的加剧。
但是从另外一个角度出发,我们又把企业主数据的问题按照数据环境和数据质量两大维度进行了区分,每个大的维度下又各有6个小的维度,具体数据环境和数据质量现状下面章节将做详细介绍。
第一节 数据环境现状
3.1.1 如何弄清自己企业的数据环境现状
提到弄清自己企业的数据环境现状问题,这的确非常复杂而又棘手,这非常类似病人看医生前对自己身体的前期诊断,这也是绝对是否要去医院的过程。这个时候企业如果能够清晰的弄清楚自己数据环境的问题所在,包括轻重程度,就会非常有利于后期数据治理效果的价值体现。
因此在企业数据环境现状自查过程中,我们一定要做到全面、细致、准确,这样才能为下一步的数据治理过程打下坚实的基础。
那么,如何才能做到对数据环境现状的全面、细致、准确的梳理呢?
首先我们要明确分析的范围,目标;成立合理的组织团队,制定完善的考核机制;确立科学的分析维度。如图3-1。
图3-1 数据环境现状分析维度 供图:中翰软件
3.1.2 数据环境风险规避
1、从规划的角度考虑问题,打破传统数据管理观念,防止走业务管理思想主导的老路线;
2、结合本企业实际情况,以国标为基础,以先进的数据管理思想为目标。
3.1.3 企业数据环境最佳标准
表3-1:数据环境最佳标准 供图:中翰软件
3.1.4 企业数据环境现状
表3-2:数据环境现状 供图:中翰软件
第二节 主数据质量现状
3.2.1 如何弄清自己企业主数据质量现状
数据质量指的是一条数据显性的质量表现,分析起来似乎比较容易,但是我们不仅要考虑数据自身的质量问题,也要考虑不同系统(数据所处环境)间由于各种原因造成的质量问题的存在,毕竟数据的存在不是独立性的。因此,分析主数据的质量问题,我们要结合现有的业务管理系统,从数据的一致性、完整性、合规性、数据冗余、及时性和有效性六个方面进行全面的分析才可以。主数据质量的六大维度具体看下面表格:
表3-3:主数据质量维度 供图:中翰软件
3.2.2 主数据风险规避
1、从数据管理的角度出发,一定要针对数据的一致性、完整性、合规性以及数据冗余四个维度全面检查数据的质量问题,杜绝缺少数据质量维度的质量分析检测;
2、严格数据名称的规范和统一,全面列举类似项,杜绝错别字、错误特殊符号等问题的疏忽、漏查等。
3.2.3 企业主数据质量最佳标准
表3-4:主数据质量维度标准 供图:中翰软件
3.2.4 企业主数据现状
从企业实际数据管理的角度,我们分别从一下角度看一下具体案例。
1. 主数据规范、标准方面
案例一:国内某大型装备制造企业集团案例,其没有形成统一的主数据模型规范。其主要问题:
现有大类问题 供图:中翰软件
上表中大类界定维度不一,如外购件和标准件两大类。
现有中类问题
(1) 中类包含的范围太广,模板无法统一。如下图1
供图:中翰软件
从上图中可以看出,其中‘粘接材料’、‘油脂材料’、‘化工用品’之间的界定清晰度不够,比如‘清洗剂’属于粘接材料,经常出现误放到化工用品中的现象,直接造成一物多码。
(2) 还有一种情况就是中类分的过细,导致中类包含数量较多,后期增加类别时,可能会造成很多问题。如下图2
供图:中翰软件
现有小类问题
小类界定模糊不清。如下图3
供图:中翰软件
上图中‘电线、电缆’小类和 后边‘排线’、‘自控电伴热线’有包含和被包含的关系存在,数据新增时很容易出现错放类别的情况。还有‘门控器’和‘安全门门控器’也是同样的问题。
现有编码属性问题
(1) 传统型的规格型号方式管理,无法实现严格的数据验证,且很容易造成人为的录入错误,尤其是中间连接符号。如下图4
供图:中翰软件
(2) 编码数据模型不统一、不完整(同一小类)如下图5
供图:中翰软件
以上这些编码中很明显的可以看出,同一个小类中编码数据模型格式严重不统一,第一行的是颜色属性,第二行的是宽度属性,第三行是长度,第四行是品牌型号,最后三行则是另外不同的格式,这样后期新增编码时很难不出现重复的。
计量单位的大小写不同(同一小类) 供图:中翰软件
计量单位出现了大小写,书写格式不规范,缺乏数据验证。
案例二:国内某大型箱包生产企业集团案例,其编码数据模型不统一,不标准。其主要问题:
编码数据模型不统一,不标准 供图:中翰软件
描述不统一,以上数据可以看出,不同编码的规格型号的描述方式相差较大,有纯汉字说明和借用编码流水号两种,二者的共存很容易导致编码的重复发生,因为不一样的描述方法,业务系统无法验证新增编码的重复所在。
还有一个问题就是物资描述不标准、不清晰,规格型号用编码来代替,此种情况适合比较熟悉实际业务,且非常了解相关物资的人,看到编码就可以直接对应到相关物资。但是企业生产过程中难免有岗位调离、离职、请假等现象的发生,新员工来到此岗位需要很长一段时间来熟悉物资的这种描述方式,很容易导致错误采购、错误生产、错误盘点等现象的发生,直接阻碍企业的快速发展。
供图:中翰软件
同样的问题看下图也很严重。
编码长度不一,且编码规则不一 供图:中翰软件
以上图片中可以清晰地看出左边编码列的长短不一,很容易造成‘一物多码’问题的发生。
再有就是标红的两行编码属于同一类别,但是编码规则中有阿拉伯数字‘9’和英文字母‘A’共存的现象,这种现象很容易造成一些误解和‘一物多码’问题,同时直接导致企业生产过程中一系列问题出现。
书写格式不规范 供图:中翰软件
以上图中,规格型号的描述中‘织唛’前有的有空格,有的没有空格,这种现象的出现直接导致现有业务业务系统无法实现有效查重,出现重码现象在所难免。
2. 主数据冗余方面
案例一:国内某大型装备制造企业集团案例
由于长期规范和标准的人为执行,以及编码过程中的人为查重、人为监管等,导致了主数据层面‘一物多码’的大量存在。
书写格式不规范,出现了大小写(同一小类) 供图:中翰软件
以上这些编码中,编码属性模板还是比较标准的,但是在实际录入过程中出现了大小写的问题,如最后三条编码规格中用的是小写,往上三行是大写,再往上又有小写出现,这很明显的说明了缺乏严格的数据验证制度,所以编码重复再所难免。
编码数据模型不统一、不完整(同一小类)供图:中翰软件
以上这些编码中很明显的可以看出,同一个小类中编码数据模型格式严重不统一,第一行的是颜色属性,第二行的是宽度属性,第三行是长度,第四行是品牌型号,最后三行则是另外不同的格式,这样后期新增编码时很难不出现重复的。
还有下图中的这组编码:
供图:中翰软件
首先看第一行和最后一行编码数据模型不同,书写格式也不一样,有重复的嫌疑。其他行的编码数据模型还是比较标准、统一的。
下边图中也是同样问题。
供图:中翰软件
以上的编码是明显的重复数据。
案例二:国内某大型箱包生产企业集团案例
供图:中翰软件
以上图片中,出现规格型号完全相同编码不同的现象,怀疑是一物多码。此种现象会直接导致业务系统使用过程中不同的人使用不同的编码,最终结果是报表中这一物资的业务数据无法统计到一条编码下,导致报表数据不准确,无法满足企业快速发展。