热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

[原创]数据仓库元数据

元数据管理概述元数据通常定义为”关于数据的数据”,在数据仓库中是定义和描述DWBI系统的结构,操作和内容的所有信息。元数据贯穿了数据仓库的整个生命周期,

元数据管理

概述

元数据通常定义为”关于数据的数据”,在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息。元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。

元数据在构建数仓过程中,定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。

元数据类型

1.业务元数据

业务元数据指从业务角度描述业务领域相关的概念、关系和规则的数据,包括业务术语和业务规则等信息。

2.技术元数据

技术元数据指描述系统中技术细节相关的概念、关系和规则的数据,包括对数据结构、数据处理方面的描述,以及数据仓库、ETL、前端展现等技术细节方面的信息。

技术元数据又细分为:

  1. 数据源元数据

  2. ETL元数据

  3. 数据仓库元数据

  4. BI元数据

3.管理元数据

管理元数据指描述管理领域相关的概念、关系和规则的数据,主要包括管理流程、人员组织、角色职责等信息。

元数据获取途径

  1. 外部数据源

主要有源系统、ETL工具、报表工具的元数据

  1. 数据仓库

数据库物理模型的元数据

  1. 手工补录

主要有Mapping文档、任务配置、业务规则、业务术语、业务人员手工补录的数据,大多数是规则明确的业务数据

元数据功能

血缘分析: 向上追溯元数据对象的数据来源。

影响分析:向下追溯元数据对象对下游的影响。

同步检查: 检查源表到目标表的数据结构是否发生变更。

指标一致性分析: 定期分析指标定义是否和实际情况一致。

实体关联查询: 事实表与维度表的代理键自动关联

元数据应用

ETL自动化管理: 使用元数据信息自动生成物理模型,ETL程序脚本,任务依赖关系和调度程序。

数据质量管理: 使用数据质量规则元数据进行数据质量测量。

数据安全管理: 使用元数据信息进行报表权限控制。

数据标准管理: 使用元数据信息生成标准的维度模型。

数据接口管理: 使用元数据信息进行接口统一管理。

数据质量管理

概述

数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。

数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。

数据质量产生的根本原因

  1. 源系统:源系统的数据结构发生变化,这是常有的事,数据仓库只是数据存储中心,而源系统的改变会造成数据仓库中数据质量发生变化

  2. ETL:源系统业务流程发生了变更

  3. 业务需求:

  • 源系统数据录入错误或者延迟

  • 源系统随着时间的推移,数据发生了演变

  • 需求不明确或者满足不了客户需求

  • ETL映射规则错误

  • ETL程序错误

  • 数据没有及时到达或者依赖关系错误

  • 源系统的业务数据与业务需求发生冲突

数据质量面临的挑战

数据的污染是在数据仓库中处理的,延伸出去就形成了专业的数据治理,但是数据的污染却在数据仓库之外发生的,所有必须要清楚数据的污染源有哪些:

**系统转换:**源系统的系统升级、转换、迁移是数据污染的重要原因

**数据老化:**在经历一代又一代的系统升级、转换、迁移,历史数据往往无法满足当时时间的业务需求

**复杂的系统集成:**源系统种类繁多,关系日渐复杂,出现污染数据的可能性越来越大

拙劣的数据库设计: 坚持实体完整性和参考完整性规则可以防止一些数据污染,但是目前数据仓库存在两种观点:注重模型、注重集市,围绕业务进行数据库设计,这两种观点与传统的十大主题设计存在矛盾点。

数据输入的不完整性:源系统的数据输入是数据污染的主要来源,信息输入错误会给数据仓库模型建立造成很大的压力

缺乏数据治理相关的政策:如果一个公司对数据质量没有明确的相关政策,那么他的数据质量不可能得到保证

数据质量的指标

准确性

准确性要求数据能够正确描述客观世界。比如某用户姓名拼音mu chen错误的录入成了muc hen,就应该弹出警告语;

唯一性(视情况而定)

唯一性要求数据不能被重复录入,或者不能有两个几乎相同的关系。比如张三李四在不同业务环境下分别建立了近乎相同的关系,这时应将这两个关系合并;

完整性

完整性要求进行数据搜集时,需求数据的被描述程度要高。比如一个用户的购买记录中,必然要有支付金额这个属性;规则验证。

一致性

一致性要求不同关系、或者同一关系不同字段的数据意义不发生冲突。

比如某关系中昨天存货量字段+当天进货量字段-当天销售量字段等于当天存货量就可能是数据质量有问题;

及时性

及时性要求数据库系统中的数据"保鲜"。比如当天的购买记录当天就要入库;

统一性

统一性要求数据格式统一。比如nike这个品牌,不能有的字段描述为"耐克",而有的字段又是"奈克";

元数据的作用

在数据仓库中,元数据的主要作用如下。

  • (1)描述哪些数据在数据仓库中,帮助决策分析者对数据仓库的内容定位。

  • (2)定义数据进入数据仓库的方式,作为数据汇总、映射和清洗的指南。

  • (3)记录业务事件发生而随之进行的数据抽取工作时间安排。

  • (4)记录并检测系统数据一致性的要求和执行情况。

  • (5)评估数据质量。

相关文章

[原创]-数据仓库架构的设计

2020-11-11

[原创]-数据需求的定义

2020-11-10

[原创]-数据仓库的由来?

2020-11-09

扫描下方二维码

加入优质社群一起交流吧!

如若二维码过期

请添加小编微信,回复关键词:[进群/加群],

-今日互动-

元数据管理你了解了吗?欢迎文章下方留言互动

如果对你有帮助的话

❤️来个「转发朋友圈」和「在看」,是最大的支持❤️


推荐阅读
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 数据库内核开发入门 | 搭建研发环境的初步指南
    本课程将带你从零开始,逐步掌握数据库内核开发的基础知识和实践技能,重点介绍如何搭建OceanBase的开发环境。 ... [详细]
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • PHP 编程疑难解析与知识点汇总
    本文详细解答了 PHP 编程中的常见问题,并提供了丰富的代码示例和解决方案,帮助开发者更好地理解和应用 PHP 知识。 ... [详细]
  • 深入理解OAuth认证机制
    本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准,旨在为第三方应用提供安全的用户资源访问授权,同时确保用户的账户信息(如用户名和密码)不会暴露给第三方。 ... [详细]
  • 网络攻防实战:从HTTP到HTTPS的演变
    本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程,探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]
  • 如何在PostgreSQL中查看数据表
    本文将指导您使用pgAdmin工具连接到PostgreSQL数据库,并展示如何浏览和查找其中的数据表。通过简单的步骤,您可以轻松访问所需的表结构和数据。 ... [详细]
  • 本文详细分析了Hive在启动过程中遇到的权限拒绝错误,并提供了多种解决方案,包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]
  • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
  • MySQL缓存机制深度解析
    本文详细探讨了MySQL的缓存机制,包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术,读者可以更好地优化数据库性能。 ... [详细]
  • Ralph的Kubernetes进阶之旅:集群架构与对象解析
    本文深入探讨了Kubernetes集群的架构和核心对象,详细介绍了Pod、Service、Volume等基本组件,以及更高层次的抽象如Deployment、StatefulSet等,帮助读者全面理解Kubernetes的工作原理。 ... [详细]
  • 从零开始构建完整手机站:Vue CLI 3 实战指南(第一部分)
    本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点,并确保这些内容与实际工作中的需求紧密结合。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 阅读本文大约需要3分钟。微信8.0版本的发布带来了许多令人振奋的新功能,如烟花特效和改进的悬浮窗,引发了用户的热烈反响。 ... [详细]
  • VPX611是北京青翼科技推出的一款采用6U VPX架构的高性能数据存储板。该板卡搭载两片Xilinx Kintex-7系列FPGA作为主控单元,内置RAID控制器,支持多达8个mSATA盘,最大存储容量可达8TB,持续写入带宽高达3.2GB/s。 ... [详细]
author-avatar
傲慢的心雅_243
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有