新闻热线:010-63691890 投稿邮箱:cehsds@126.com

数据治理中的核心元素——元数据

1

 

一、关于元数据

1、什么是元数据

元数据(metadata)是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。

概念阐述总归生涩,下面用几个简单的例子来比喻一下:

例1:元数据是“户口本”。有了“户口本”,我们不仅能了解此人的出生年月等基本信息,还能知晓他的亲属关系。这些信息就构成了对这个人的详细描述,这些信息就是描述这个人的元数据。

2元数据是“图书目录”。图书馆中的图书目录包含图书名称、编号、作者、位置等信息,有了它,图书管理员就能快速查找图书。元数据能够帮助数据管理员管理数据。

3元数据是“藏宝图”,按图索骥就能找到宝藏。元数据能够帮助企业盘点自己有哪些数据,以及这些数据的位置、来源、去向、路径等。

收集元数据,能够帮助企业回答下面的问题:我们有哪些数据?数据的使用人数有多少?如何查找数据?数据的流转情况如何?通过血缘关系进行溯源和问题分析等等。

那么在实际业务场景中,元数据又是怎样的呢?

示例:比如 175 这个数字,它在特定场景下,有如下的元数据:

2

2、元数据&元数据管理的重要性在表格中,“175”是实体数据,而业务元数据技术元数据操作元数据管理元数据,分别从各自的角度描述了“175”这个数字,所以,它们都在元数据的范畴内。

数据治理的前提是要有数据,并且要求数据类型全、量大,并尽可能的覆盖数据流转的各个环节,而元数据是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知识。”换句话说,如果没有元数据,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。

要想获得元数据的价值,需要根据建立的流程、在行业标准和最佳实践指导的范围内管理元数据。在“DAMA车轮图”中,元数据管理占据了十大数据管理领域其中很重要的一环:

3

元数据管理是一项和主数据管理、数据治理一样重要的功能,因为元数据管理是每一个这些准则的基础组件。不管理好元数据,是不能管理好主数据的。

二、元数据的分类

按照不同领域和功能,元数据一般来说可分为:技术元数据业务元数据操作元数据管理元数据。由于使用视角不同会影响到对元数据的分类,所以具体的分类标准并不严格。(比如数据安全等级指标——从安全部门的视角来看,属于业务元数据;从开发部门的视角来看,就属于管理元数据。)

1、技术元数据

技术元数据是用于开发和日常管理数据仓库时用的数据。它作为数据的结构化,能够方便计算机、数据库对数据进行识别、存储、传输和交换。

对开发人员来说,它有助于明确数据的存储、结构,为应用开发和系统集成打牢基础;对业务人员来说,它有助于理清数据关系,从而能够更加快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。

常见的技术元数据:

l 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;

l 数据存储类型、位置、数据存储文件格式或数据压缩类型等;

l 字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;

l 调度依赖关系、进度和数据更新频率等。

2、业务元数据

业务元数据描述的对象,是数据的业务含义、业务规则等。通过对业务元数据的明确,人们对它的理解和使用会变得更加容易。元数据使得数据的二义性不复存在,人们对数据含义能够产生一致的认知,避免了“自说自话”的情况,进而为数据分析和应用提供支撑。

常见的业务元数据:

l 业务定义、业务术语解释等;

l 业务指标名称、计算口径、衍生指标等;

l 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;

l 数据的安全或敏感级别等。

3、操作元数据

操作元数据描述了数据的操作属性,比如管理部门、管理责任人等。数据操作属性的明确,有助于将数据管理责任落实到部门和个人,是数据安全管理的基础条件。

常见的操作元数据:

l 数据所有者、使用者等;

l 数据的访问方式、访问时间、访问限制等;

l 数据访问权限、组和角色等;

l 数据处理作业的结果、系统执行日志等;

l 数据备份、归档人、归档时间等。

4、管理元数据

管理元数据包含了数据管理的信息在其中,例如:表的业务属主、表的技术负责人。

常见的管理元数据:

l 数据的来源;

l 数据的功用;

l 数据的负责人;

l 数据的价值体现等。 

三、元数据管理方法

元数据管理是对元数据的创建、存储、整合、控制的一整套流程,它能够帮助开发和业务人员快速了解数据上下游关系、数据本身含义;它可以精准定位需要查找的数据,减少数据研究的时间成本,提高工作效率。

元数据管理也是数据治理工作的重中之重,在数据治理项目中,我们通常从以下几个方面推进元数据管理工作:

1、元数据范围

首先,要确定需要进行管理操作的元数据范围。实际情况中,不一定所有数据都要做元数据管理。更多情况下,业务数据会被选择进行元数据管理,非业务数据(例如:备份数据、系统日志等)一般不会被纳入管理范围内,主要原因是,元数据管理能够帮助业务和开发人员快速掌握业务数据。

确定规则后,就要根据公司实际情况,整理出需要进行元数据管理的业务系统、数据库、数据库用户、表等。非结构化数据的元数据抽取也可支持,比如:word、pdf等。

2、元数据接入

元数据一般是从源系统接入,如果企业已经拥有数仓,或对实时性要求不高,为了节约开发工作量、提升工作效率,会将已有的元数据从数仓接入,还未接入的从源系统接入。

这种方案的风险在于:如果数仓的数据和源系统出现不一致的情况,元数据就会出现错误。现如今,大部分的元数据抽取都采用配置自动化的方式进行。

3、元数据标准

为了保证元数据的完整性和一致性,当出现数据库或数据定义不规范的情况时,要建立元数据管理的规范和标准,反推前端源数据整改。同时,要对元数据进行权限管理,规范权限的管理流程(元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程等)。

4、元数据维护

指对已发布的元数据进行管理和维护,如果需要对已上线的元数据进行调整优化,就必须重新通过元数据发布流程,不允许直接修改元数据。同时,成立元数据操作日志,记录所有元数据操作行为。

可根据要求,按照业务流程、业务主题域、开发流程设计对应目录,将不同的元数据挂在对应的目录下。

5、元数据查找、分析、报告

划分单独页面,支持对元数据进行模糊或精准快速查找。

产出元数据资产报告,帮助企业快速了解元数据访问热度、数据价值、数据成本、数据分布等相关信息。

四、元数据应用

元数据应用场景:

4

可以看出,建立好元数据,不仅能够方便数据治理,也可以衍生出丰富的应用,如数据地图,血缘分析,数据冷热分析,数据资产管理等。(山东中翰软件有限公司)

发展改革·区域聚焦

山东通报表扬30个县域经济高质量发展成效显著和进步明显县(市、区)
山东省社会信用中心行政保障部党支部开展“党课开讲啦”活动
山东省发展改革委动能转换协调处开展“缅怀革命先烈、纯洁思想作风”主题党日活动
滨州:推动人口自由流动,服务城乡融合发展
山东省发改委黄河处党支部组织开展深入贯彻中央八项规定精神学习教育专题党课
山东省发展改革委区域发展处党支部开展 “学规守纪强作风,以案为鉴促担当” 主题党日活动
6月第4周德州市居民生活消费品价格呈现窄幅上涨走势
山东省发展改革委社会处党支部开展深入贯彻中央八项规定精神专题党课

绿色能源

泰安市岱岳区:高效办成充电桩报装“一件事”
筑牢能源动脉安全防线 山东庆云:政企联动进校园开展管道安全实战演练
聊城茌平全力护航中高考,筑牢保电“安全网”
国家电投滨州沾化B12-1(一期)200兆瓦渔光互补项目并网
山东省节能与双碳促进中心正式揭牌成立 开启绿色低碳高质量发展新征程
促进新能源消纳,山东省能源局将重点抓好三项工作
山东持续提升煤电机组调峰能力,推动煤电向兜底保障性和系统调节性电源转变
山东:深化电力市场化改革,引导和促进新能源高比例消纳

齐鲁粮油

山东蒙阴抓实应急演练,筑牢粮食仓储安全屏障
山东省粮食和物资储备局赴烟台调研山东商务职业学院建设与粮食和物资储备工作
山东省粮食和物资储备局召开“十五五”仓储物流设施建设座谈会
山东省粮食和物资储备局举办“齐鲁粮油”走进临沂活动
山东组团参加第二十一届粮食产销协作福建洽谈会“齐鲁粮油”专场推介活动同步举办
山东泗水:夏粮收购正当时,颗粒归仓保粮安
淄博市开展新小麦收购价格监测工作
枣庄市市中区:三项举措做好夏粮收购为农服务

价格调控·价格服务

青岛市价格认证和监测中心:加强学习交流 建设廉洁文化
山东蒙阴:6月份居民生活消费(食)品价格总体上涨1.66%
临沂市兰山区居民消费品价格总体平稳,蔬菜鸡蛋价格上涨(6.23—6.30)
济宁:6月肉禽蛋价格以降为主,蔬菜价格止跌回升
本周青岛海明虾和牡蛎超市价格下降,销量上涨明显
青岛举办价格认定案例评审暨认定业务培训班
山东沂源:6月份蔬菜和水果价格普遍上涨
淄博市2025年第二季度肉蛋价格下跌,蔬菜价格涨跌互现

价格监测

发展视觉