新闻热线:010-63691890 投稿邮箱:cehsds@126.com

数据治理中的核心元素——元数据

1

 

一、关于元数据

1、什么是元数据

元数据(metadata)是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。

概念阐述总归生涩,下面用几个简单的例子来比喻一下:

例1:元数据是“户口本”。有了“户口本”,我们不仅能了解此人的出生年月等基本信息,还能知晓他的亲属关系。这些信息就构成了对这个人的详细描述,这些信息就是描述这个人的元数据。

2元数据是“图书目录”。图书馆中的图书目录包含图书名称、编号、作者、位置等信息,有了它,图书管理员就能快速查找图书。元数据能够帮助数据管理员管理数据。

3元数据是“藏宝图”,按图索骥就能找到宝藏。元数据能够帮助企业盘点自己有哪些数据,以及这些数据的位置、来源、去向、路径等。

收集元数据,能够帮助企业回答下面的问题:我们有哪些数据?数据的使用人数有多少?如何查找数据?数据的流转情况如何?通过血缘关系进行溯源和问题分析等等。

那么在实际业务场景中,元数据又是怎样的呢?

示例:比如 175 这个数字,它在特定场景下,有如下的元数据:

2

2、元数据&元数据管理的重要性在表格中,“175”是实体数据,而业务元数据技术元数据操作元数据管理元数据,分别从各自的角度描述了“175”这个数字,所以,它们都在元数据的范畴内。

数据治理的前提是要有数据,并且要求数据类型全、量大,并尽可能的覆盖数据流转的各个环节,而元数据是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知识。”换句话说,如果没有元数据,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。

要想获得元数据的价值,需要根据建立的流程、在行业标准和最佳实践指导的范围内管理元数据。在“DAMA车轮图”中,元数据管理占据了十大数据管理领域其中很重要的一环:

3

元数据管理是一项和主数据管理、数据治理一样重要的功能,因为元数据管理是每一个这些准则的基础组件。不管理好元数据,是不能管理好主数据的。

二、元数据的分类

按照不同领域和功能,元数据一般来说可分为:技术元数据业务元数据操作元数据管理元数据。由于使用视角不同会影响到对元数据的分类,所以具体的分类标准并不严格。(比如数据安全等级指标——从安全部门的视角来看,属于业务元数据;从开发部门的视角来看,就属于管理元数据。)

1、技术元数据

技术元数据是用于开发和日常管理数据仓库时用的数据。它作为数据的结构化,能够方便计算机、数据库对数据进行识别、存储、传输和交换。

对开发人员来说,它有助于明确数据的存储、结构,为应用开发和系统集成打牢基础;对业务人员来说,它有助于理清数据关系,从而能够更加快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。

常见的技术元数据:

l 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;

l 数据存储类型、位置、数据存储文件格式或数据压缩类型等;

l 字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;

l 调度依赖关系、进度和数据更新频率等。

2、业务元数据

业务元数据描述的对象,是数据的业务含义、业务规则等。通过对业务元数据的明确,人们对它的理解和使用会变得更加容易。元数据使得数据的二义性不复存在,人们对数据含义能够产生一致的认知,避免了“自说自话”的情况,进而为数据分析和应用提供支撑。

常见的业务元数据:

l 业务定义、业务术语解释等;

l 业务指标名称、计算口径、衍生指标等;

l 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;

l 数据的安全或敏感级别等。

3、操作元数据

操作元数据描述了数据的操作属性,比如管理部门、管理责任人等。数据操作属性的明确,有助于将数据管理责任落实到部门和个人,是数据安全管理的基础条件。

常见的操作元数据:

l 数据所有者、使用者等;

l 数据的访问方式、访问时间、访问限制等;

l 数据访问权限、组和角色等;

l 数据处理作业的结果、系统执行日志等;

l 数据备份、归档人、归档时间等。

4、管理元数据

管理元数据包含了数据管理的信息在其中,例如:表的业务属主、表的技术负责人。

常见的管理元数据:

l 数据的来源;

l 数据的功用;

l 数据的负责人;

l 数据的价值体现等。 

三、元数据管理方法

元数据管理是对元数据的创建、存储、整合、控制的一整套流程,它能够帮助开发和业务人员快速了解数据上下游关系、数据本身含义;它可以精准定位需要查找的数据,减少数据研究的时间成本,提高工作效率。

元数据管理也是数据治理工作的重中之重,在数据治理项目中,我们通常从以下几个方面推进元数据管理工作:

1、元数据范围

首先,要确定需要进行管理操作的元数据范围。实际情况中,不一定所有数据都要做元数据管理。更多情况下,业务数据会被选择进行元数据管理,非业务数据(例如:备份数据、系统日志等)一般不会被纳入管理范围内,主要原因是,元数据管理能够帮助业务和开发人员快速掌握业务数据。

确定规则后,就要根据公司实际情况,整理出需要进行元数据管理的业务系统、数据库、数据库用户、表等。非结构化数据的元数据抽取也可支持,比如:word、pdf等。

2、元数据接入

元数据一般是从源系统接入,如果企业已经拥有数仓,或对实时性要求不高,为了节约开发工作量、提升工作效率,会将已有的元数据从数仓接入,还未接入的从源系统接入。

这种方案的风险在于:如果数仓的数据和源系统出现不一致的情况,元数据就会出现错误。现如今,大部分的元数据抽取都采用配置自动化的方式进行。

3、元数据标准

为了保证元数据的完整性和一致性,当出现数据库或数据定义不规范的情况时,要建立元数据管理的规范和标准,反推前端源数据整改。同时,要对元数据进行权限管理,规范权限的管理流程(元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程等)。

4、元数据维护

指对已发布的元数据进行管理和维护,如果需要对已上线的元数据进行调整优化,就必须重新通过元数据发布流程,不允许直接修改元数据。同时,成立元数据操作日志,记录所有元数据操作行为。

可根据要求,按照业务流程、业务主题域、开发流程设计对应目录,将不同的元数据挂在对应的目录下。

5、元数据查找、分析、报告

划分单独页面,支持对元数据进行模糊或精准快速查找。

产出元数据资产报告,帮助企业快速了解元数据访问热度、数据价值、数据成本、数据分布等相关信息。

四、元数据应用

元数据应用场景:

4

可以看出,建立好元数据,不仅能够方便数据治理,也可以衍生出丰富的应用,如数据地图,血缘分析,数据冷热分析,数据资产管理等。(山东中翰软件有限公司)

发展改革·区域聚焦

山东鄄城县发改局党组理论学习中心组举行贯彻落实总体国家安全观专题学习研讨
山东庆云70个重点项目集中签约、开竣工投产
东营河口:多部门开展工程建设项目招投标工作联合专项检查
东营市河口区发改局召开支持小微企业融资协调机制动员部署会议
山东栖霞:持久发力稳成效,奋力攻坚抓经济
山东东平:县城发展助推新型城镇化建设
山东省发改委对外开放处党支部组织开展“践行开放、聚力海外”联合主题党日活动
山东省发改委高技术处党支部开展“不忘初心、牢记使命”三级联动主题党日活动

绿色能源

山东庆云:一节电池的逐“绿”创新
山东庆云:充电桩下乡走上快速路
山东临沭加快塑造高质量发展新优势
临沂兰山助力点燃“第一把火”,保障群众“过暖冬”
全国煤炭行业“劳模工匠助企行”暨第二届“院士·工匠论坛”系列活动在山东举办
烟台市牟平区发改局开展三季度能源类重点项目实地调研活动
三峡能源庆云储能电站:充一次电,可供6千户家庭用一个月
全国资源型地区转型发展现场会在枣庄召开

齐鲁粮油

准备仓容1235万吨、资金288亿元,2024年山东秋粮收购工作全面展开
2024年山东夏粮集中收购顺利收官!粮食市场运行平稳、流通顺畅
强化监管措施,山东省粮食和物资储备局三措并举维护粮食收购市场秩序
山东:严把粮食质量关,加强粮食质检体系建设
济南市开展秋粮生产和市场情况调研
枣庄市市中区成功举办首届国有粮食仓储企业粮食储备岗位业务技能“大比武”
山东:粮食储备管理确保平时备得足储得好,关键时刻调得出用得上
藏粮于“技” 山东推动实现粮食“住得好”“过得好”“管得好”

价格调控·价格服务

山东平邑:开展普惠性养老服务定价成本调查工作
山东沂源:与上周相比,菜蛋价格略有下跌
济宁:11月上旬肉禽蛋价格涨跌互现,蔬菜价格持续回落
临沂:肉类价格稳定,鸡蛋蔬菜价格下降
临沂商城价格指数环比分析 (11月7日—11月13日)
山东平邑:粮油肉蛋价格稳定,蔬菜价格下降(11.07-11.14)
山东省价格认证中心调研日照大宗商品价格
坚持问题导向 青岛积极探索物业服务收费改革

价格监测

发展视觉