热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数仓理论建模

数仓理论建模数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合数仓的使用结构复杂业务数据库通常是根据业务操作的需要进行设计的,遵循3NF范
数仓理论建模

数据仓库

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合

数仓的使用


  1. 结构复杂

    业务数据库通常是根据业务操作的需要进行设计的,遵循3NF范式,尽可能减少数据冗余。这就造成表与表之间关系错综复杂。在分析业务状况时,储存业务数据的表,与储存想要分析的角度表,很可能不会直接关联,而是需要通过多层关联来达到,这为分析增加了很大的复杂度。
    举例:想要从门店的地域分布来分析用户还款情况。基本的还款数据在订单细节表里,各种杂项信息在订单表里,门店信息在门店表里,地域信息在地域表里,这就意味着我们需要把这四张表关联起来,才能按门店地域来分析用户的还款情况。
    此外,随着NoSQL数据库的进一步发展,有许多数据储存在诸如MongoDB等NoSQL数据库中,另外一些通用信息,如节假日等,通常也不会在数据库中有记录,而是以文本文件的形式储存。多种多样的数据储存方式,也给取数带来了困难,没法简单地用一条SQL完成数据查询。如果能把这些数据都整合到一个数据库里,比如构造一张节假日表。这样就能很方便地完成数据查询,从而提高分析效率。

  2. 数据脏乱

    因为业务数据库会接受大量用户的输入,如果业务系统没有做好足够的数据校验,就会产生一些错误数据,比如不合法的身份证号,或者不应存在的Null值,空字符串等。

  3. 理解困难

    业务数据库中存在大量语义不明的操作代码,比如各种状态的代码,地理位置的代码等等,在不同业务中的同一名词可能还有不同的叫法。

    这些情况都是为了方便业务操作和开发而出现的,但却给我们分析数据造成了很大负担。各种操作代码必须要查阅文档,如果操作代码较多,还需要了解储存它的表。来自不同业务数据源的同义异名的数据更是需要翻阅多份文档。

  4. 缺少历史

    出于节约空间的考虑,业务数据库通常不会记录状态流变历史,这就使得某些基于流变历史的分析无法进行。比如想要分析从用户申请到最终放款整个过程中,各个环节的速度和转化率,没有流变历史就很难完成。

  5. 大规模查询缓慢

    当业务数据量较大时,查询就会变得缓慢。尤其需要同时关联好几张大表,比如还款表关联订单表再关联用户表,这个体量就非常巨大,查询速度非常慢。美好的青春都浪费在了等待查询结果上,真是令人叹息。

    主题

    面向主题

    主题(Subject)

    将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念
    每一个主题基本对应一个宏观的分析领域
    例如“销售分析”就是一个分析领域,那么这个数据仓库应用的主题就是“销售分析”

    提取主题

    采购子系统:
    订单(订单号,供应商号,总金额,日期)
    订单细则(订单号,商品号,类别,单价,数量)
    供应商(供应商号,供应商名,地址,电话)销售子系统:
    顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)
    销售(员工号,顾客号,商品号,数量,单价,日期)库存管理子系统:
    领料单(领料单号,领料人,商品号,数量,日期)
    进料单(进料单号,订单号,进料人,收料人,日期)
    库存(商品号,库房号,库存量,日期)
    库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统:
    员工(员工号,姓名,性别,年龄,文化程度,部门号)
    部门(部门号,部门名称,部门主管,电话)主题一:顾客
    固有信息:顾客号,姓名,性别,年龄,文化程度,地址,电话
    购物信息:顾客号,商品号,单价,数量,金额,日期,...主题二:供应商
    固有信息:供应商号,供应商名,地址,电话
    供应商品信息:订单号,供应商号,总金额,日期
    主题三:商品
    固有信息:商品号,商品名,类别,颜色,尺寸,型号
    采购信息:商品号,供应商号,日期,采购价格,采购量
    库存信息:商品号,库房号,库存量,日期
    销售信息:顾客号,商品号,数量,单价,日期
    主题四:订单
    固有信息:订单号,员工号,顾客号,商品号,数量,单价,日期员工信息:员工号,姓名,性别,年龄,文化程度,部门号
    顾客信息:顾客号,姓名,性别,年龄,文化程度,地址,电话
    商品信息:商品号,商品名,类别,颜色,尺寸,型号


集成

集成性是指数据仓库中数据必须是一致的

  1. 数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的
  2. 数据来源可能既有内部数据又有外部数据
    例如F/M,0/1,A/B

集成方法:统一(消除不一致),综合(对原有数据进行综合和计算)

非易失(非人为因素)

数据仓库中的数据是经过抽取而形成的分析型数据

  • 不具有原始性
  • 主要供企业决策分析之用
  • 执行的主要是‘查询’操作,一般情况下不执行‘更新’操作
  • 一个稳定的数据环境也有利于数据分析操作和决策的制订

随时间变化(人为删除)

数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度

  • 不断增加新的数据内容
  • 不断删去旧的数据内容
  • 更新与时间有关的综合数据

数据仓库和数据库的区别


  • 数据库是为捕获和存储数据而设计
  • 数据仓库是为分析数据而设计

** **数据库数据仓库
本质数据的集合数据的集合
定位事务处理OLTP数据分析OLAP
面向群体前端用户管理人员
操作增删改查查询
数据粒度事件记录维度
数据粒度事件记录维度

OLTP和OLAP的区别


  • On-Line Transaction Processing 联机事务处理OLTP
  • OLTP是传统的关系型数据库的主要应用

对比属性OLTPOLAP
读特性每次查询只返回少量记录对大量记录进行汇总
写特性随机、低延时写入用户的输入批量导入
使用场景用户,Java EE项目内部分析师,为决策提供支持
数据表征最新数据状态随时间变化的历史状态
数据规模GBTB到PB

数据仓库的架构


Inmon架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GDMJy5si-1614597871664)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210301095333013.png)]

Kimball架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-INhRqmwp-1614597871665)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210301095433914.png)]

混合型架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YstfHoOM-1614597871666)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210301095510155.png)]

数据仓库的解决方案


  • 数据采集
    Flume,Sqoop,Logstash,Datax

    数据ETL(清洗)

    • 抽取(Extract)
      从操作型数据源获取数据

    • 转换(Transform)
      转换数据,使之转变为适用于查询和分析的形式和结构

    • 装载(Load)
      将转换后的数据导入到最终的目标数据仓库

    • 工具

      Oracle:OWB和ODI
      微软:SQL Server Integration Services
      SAP:Data Integrator
      IBM:InfoSphere DataStage、Informatica
      Pentaho:Kettle

  • 数据存储
    MySQL,HDFS,HBase,Redis,MongoDB

  • 数据计算
    Hive,Tez,Spark,Flink,Storm

  • 数据可视化
    Tableau,Echarts,Superset,QuickBI,DataV

  • 任务调度
    Oozie,Azkaban,Crontab

    数据转换
    1.统一数据编码: 比如性别字段, 有些是1和0, 有些使用"F"和"M表示", 我们需要给他统一一下
    2.预计算: 比如订单信息表里有"订单号, 员工号,顾客号,商品号,数量,单价,日期", 这里我们就可以将"数量×单价", 提前做好计算
    3.重新排序: 提高查询性能
    4.去重: 数据可能会有一些重复的, 会影响到后续的分析, 所以我们需要根据实际情况进行去重
    5.行列转置: lateral view explode


数据仓库的建模


数据仓库模型构建


选择业务流程


  1. 确认哪些业务处理流程是数据仓库应该覆盖的
    例如:了解和分析一个零售店的销售情况
  2. 记录方式
    • 使用纯文本
    • 使用业务流程建模标注(BPMN)方法
    • 使用同一建模语言(UML)

声明粒度


  1. 用于确定事实中表示的是什么
    例如:一个零售店的顾客在购物小票上的一个购买条目
  2. 选择维度和事实前必须声明粒度
  3. 建议从原始粒度数据开始设计
    原始记录能够满足无法预期的用户查询
  4. 不同的事实可以有不同的粒度

确认维度


  1. 说明了事实表的数据是从哪里采集来的
  2. 典型的维度都是名词
    例如:日期、商店、库存等
  3. 维度表存储了某一维度的所有相关数据
    例如:日期维度应该包括年、季度、月、周、日等数据

确认事实


  1. 识别数字化的度量,构成事实表的记录
  2. 和系统的业务用户密切相关
  3. 大部分事实表的度量都是数字类型的
    • 可累加,可计算
    • 例如:成本、数量、金额

星型模型

中间一张事实表,周围一圈维度表构成

优点
简化查询
简化业务报表逻辑
获得查询性能
快速聚合
便于向立方体提供数据
缺点
不能保证数据完整性
对于分析需求来说不够灵活

雪花模型

中间一张事实表,周围多层维度表构成

优点
一些OLAP多维数据库建模工具专为雪花模型进行了优化
规范化的维度属性节省存储空间
缺点
维度属性规范化增加了查询的连接操作和复杂度
不确保数据完整性

星座表

两张事实表通过一张维度表关联


推荐阅读
  • Qt提供了QtSql模块来提供平台独立的基于SQL的数据库操作。这里我们所说的“平台独立”,既包括操作系统平台,有包括各个数据库平台。另外, ... [详细]
  • CentOS 7部署KVM虚拟化环境之一架构介绍
    本文介绍了CentOS 7部署KVM虚拟化环境的架构,详细解释了虚拟化技术的概念和原理,包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 本文介绍了一个项目风险管理论文示例,该论文以某公司的人力资源管理系统建设项目为例,详细介绍了该项目的背景、投资、工期、推广应用以及解决的业务难题。该系统具备多个系统功能模块,采用Java语言开发,基于J2EE架构,使用Oracle数据库和Weblogic中间件,服务器采用DELL塔式商用服务器,并采用双机热备和光纤存储。该系统的实施能够提升信息共享和协同作业范围,解决数据统计工作量大、容易出错等问题,同时还能提高业务办公质量和进行成本控制。 ... [详细]
  • Java工程师书单(初级,中级,高级)
    简介怎样学习才能从一名Java初级程序员成长为一名合格的架构师,或者说一名合格的架构师应该有怎样的技术知识体系,这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序 ... [详细]
  • 数据库基本介绍
    1、数据库基本知识概念:数据库:database(DB),是一种存储数据的仓库数据库是根据数据结构组织、存储和 ... [详细]
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • 目录一、MySQL数据库1.简介2.用管理员身份登录3.密码相关操作4.SQL与NoSQL5.数据库重要概念二、MySQL基本语句1.基于库的增删改查2.基于表的增删改查3.基于记 ... [详细]
  • 在Ubuntu中安装MongoDB
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • 目录摘要SQL的现在NoSQL,NotOnlySQL要分布式,也要SQL总结引用摘要毫不夸张的说,关系数据库是企业软件系统的核心,企业形形色色信息行为的背后,都有关系数据库的支撑。 ... [详细]
  • Oracle中存储过程和函数的区别
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • Mycat分库分表全解析 Part 2 数据库切分方式
    数据库切 ... [详细]
  • 如今ApacheHadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume) ... [详细]
  • 数据库 SQL 和 NoSQL 的区别
    SQL和NoSQL的区别一、概念SQL(StructuredQueryLanguage)数据库,指关系型数据库。主要代表:SQLServer࿰ ... [详细]
  • 阿里云MVP专家孙玄:一文讲透 MySQL 存储架构设计之道
    图片来源:pexels.com孙玄,江湖人称“玄姐”,前58集团技术委员会主席,前转转二手交易平台首席架构师。今天想跟你聊点 ... [详细]
author-avatar
愁撒_651
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有