数据仓库-元数据管理

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

一、什么是元数据

元数据Metadata又称中介数据、中继数据为描述数据的数据data about data一组用于描述数据的数据组该数据组的一切信息都描述了该数据的某方面特征则该数据组即可被称为元数据。业务含义、统计口径、数据来源、计算逻辑等就是元数据。

现在数据对于公司的决策十分的重要随着业务的发展业务线会慢慢庞大起来随着开发人员的变更以及增多没有元数据治理很难保证数据质量这时候就需要元数据管理用来记录公司拥有什么数据数据在哪里、由谁负责数据中的值意味着什么数据的生命周期是什么哪些数据安全性和隐私性需要保护以及谁使用了数据用于什么业务目的数据的质量怎么样等等。

二、元数据的组成

元数据贯穿整个数据仓库根据情况可以分为三种业务元数据技术元数据管理元数据。

1、业务元数据

业务元数据描述数据的业务含义、业务规则等。通过明确业务元数据让人们更容易理解和使用业务元数据。元数据消除了数据二义性让人们对数据有一致的认知避免“自说自话”进而为数据分析和应用提供支撑。

常见的业务元数据有

  • 业务定义、业务术语解释等

  • 业务指标名称、计算口径、衍生指标等

  • 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等

  • 数据的安全或敏感级别等。

2、技术元数据

技术元数据是对数据的结构化方便计算机或数据库对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员让开发人员更加明确数据的存储、结构从而为应用开发和系统集成奠定基础。技术元数据也可服务于业务人员通过元数据理清数据关系让业务人员更快速地找到想要的数据进而对数据的来源和去向进行分析支持数据血缘追溯和影响分析。

常见的技术元数据有

  • 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等

  • 数据存储类型、位置、数据存储文件格式或数据压缩类型等

  • 字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等

  • 调度依赖关系、进度和数据更新频率等

3、管理元数据操作元数据

管理元数据描述数据的操作属性包括管理部门、管理责任人等。明确管理属性有利于数据管理责任到部门和个人是数据安全管理的基础。

常见的操作元数据有

  • 数据所有者、使用者等

  • 数据的访问方式、访问时间、访问限制等

  • 数据访问权限、组和角色等

  • 数据处理作业的结果、系统执行日志等

  • 数据备份、归档人、归档时间等

三、如何建设数据仓库元数据管理

由于元数据包含极广我们在建立元数据管理系统的时候绝对不能盲目追求大而全、一步到位要坚持目标驱动的原则在实施的时候要采取增量式、渐进式的建设原则。具体的建设步骤如下

  1. 在建设数据仓库系统的初期只需确定源系统的元数据构成和 数仓我们想要实现的元数据内容比如我们只想通过元数据来管理数据仓库中数据的转换过程以及有关数据的抽取路线以使数据仓库开发和使用人员明白仓库中数据的整个历史过程。

  1. 确定源系统和元数据构成后先将源系统的元数据整理并记录可以用文档记录也可以存入关系型数据库中。

  1. 随着数据仓库系统的建设逐步将需要的元数据补充录入——例如 DM 的语义层、ETL 的同步规则。

  1. 数据仓库建设完成后对元数据进行结构化、标准化储存。

总之建立元数据管理系统一定要坚持关注标准又不被标准所束缚的原则建立符合自身目标的元数据管理系统。

四、元数据的应用场景

1、数据资产地图

按数据域对企业数据资源进行全面盘点和分类并根据元数据字典自动生成企业数据资产的全景地图。该地图可以告诉你有哪些数据在哪里可以找到这些数据能用这些数据干什么。

数据资产地图支持以拓扑图的形式可视化展示各类元数据和数据处理过程通过不同层次的图形展现粒度控制满足业务上不同应用场景的图形查询和辅助分析需要。

整体可以分为三部分

第一部分汇总库、表的数量自己负责和有权限的表的数量等等。

第二部分展示这个库下所有表的情况。包括表名、数据量、更新时间、最近使用次数等

第三部分展示所有表的技术、业务的元数据。包括描述、负责人、大小、分区数、建表和更新时间、最近使用次数、变更记录、使用记录等。

2、血缘分析

元数据血缘分析会告诉你数据来自哪里经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系追根溯源快速定位到问题数据的来源和加工过程减少数据问题排查分析的时间和难度。

基于血缘关系可以做很多事情例如

1、结合任务完成时间根据路径定位性能瓶颈调节任务时间以便更好的调节性能

2、设计监控当表出现变更时可以通知任务负责人

3、方便管理表可以快速找到没有被使用的表 数据生命周期管理

4、辅助维护字段的一致性如注释、校验规则复用。

3、元数据影响分析

元数据影响分析会告诉你数据去了哪里经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系向下追踪快速找到有哪些应用或数据库使用了这个数据从而最大限度地减小数据问题带来的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用的影响分析。

4、元数据冷热度分析

元数据冷热度分析会告诉你哪些数据是企业常用数据哪些数据属于僵死数据。其价值在于让数据活跃程度可视化让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度以便他们更好地驾驭数据处置或激活僵死数据从而为数据的自助式分析提供支撑。

5、元数据关联度分析

元数据关联度分析会告诉你数据与其他数据的关系以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其他实体及其参与的处理过程两个角度来查看具体数据的使用情况形成一张实体和所参与处理过程的网络如表与ETL程序、表与分析应用、表与其他表的关联情况等从而进一步了解该实体的重要程度。

6. 元数据接口

建立元数据查询、访问的统一接口规范以将企业核心元数据完整、准确地提取到元数据仓库中进行集中管理和统一共享。

元数据接口规范主要包括接口的编码方式、接口响应、接口协议、接口安全、连接方式、技术实现、调用方式、报文格式等方面的内容。

五、总结

元数据管理系统是对一家公司数据更高的考验想要搭建成功至少满足以下条件

  1. 整个公司数据的集成——数据仓库的搭建

  1. 整个公司业务流程的完善——"业务中台"的实现

  1. 整个公司技术开发的统一——"技术中台"的实现

如果说数据仓库是数据的集成那元数据管理系统就是整个公司业务、技术、管理的统一。

六、面试

数据治理有参与吗你们公司的元数据是怎样进行管理的

基于Hive元数据做了可视化用于整理数据链路方便查询表的结构字段流向以及口径权限等问题

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6