热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据仓库分层详解:各层次的作用与实现

本文详细介绍了数据仓库的分层架构,包括ODS层(原始数据层)、DWD层(细节数据层)、DWS层(服务数据层)、DWT/DM层(数据集市层)和ADS/APP层(数据应用层),并解释了每一层的具体作用和实现方法。

ODS层(原始数据层)


  • 保持数据的原始形态,不进行任何修改,主要用于数据备份和恢复。
  • 使用LZO等高效压缩算法,显著减少存储空间。例如,100GB的数据可以压缩至10GB左右。
  • 通过创建分区表,提高查询效率,避免全表扫描。
  • 在企业环境中,通常创建外部表而非内部表,以便于数据管理和共享。

DWD层(细节数据层)

DWD层主要负责构建详细的维度模型,通常采用星型或雪花型模型。数据需要长期保存,以支持历史数据分析。

  • 数据建模
    • 确定业务过程
    • 定义粒度
    • 识别维度
    • 确认事实
  • 解析用户行为数据
  • 对关键数据进行空值过滤和清洗
  • 通过维度退化技术重新建模业务数据
  • 使用Parquet等列式存储格式,提高查询性能,无需额外创建索引

DWS层(服务数据层)

DWS层用于统计各主题对象的每日行为,支持DWT层的主题宽表和特定业务需求。

该层的宽表字段从不同维度视角分析事实表,重点关注度量值。例如,一个用户的签到数、收藏数、评论数、抽奖数、订阅数、点赞数、浏览商品数、添加购物车数、下单数、支付数、退款数和点击广告数等。

DWT层/DM层(数据集市层)

此层以分析主题对象为核心,根据上层应用和产品的需求,构建全量宽表。

数据仓库面向整个企业,而数据集市则专注于特定部门,关注较少的指标、维度和主题。

ADS层/APP层(数据应用层)

根据实际应用场景,将数据仓库中的数据转化为具体的应用,如报表、仪表板和数据挖掘等。


推荐阅读
  • 本文详细介绍了 Java 网站开发的相关资源和步骤,包括常用网站、开发环境和框架选择。 ... [详细]
  • 题目链接: L - Floating-Point Numbers。题目要求处理带有15位小数的浮点数,计算其二进制表示的最大位数。 ... [详细]
  • 周排行与月排行榜开发总结
    本文详细介绍了如何在PHP中实现周排行和月排行榜的开发,包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ... [详细]
  • 传统上,Java 的 String 类一直使用 char 数组来存储字符数据。然而,在 Java 9 及更高版本中,String 类的内部实现改为使用 byte 数组。本文将探讨这一变化的原因及其带来的好处。 ... [详细]
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
  • 本文介绍了Java编程语言的基础知识,包括其历史背景、主要特性以及如何安装和配置JDK。此外,还详细讲解了如何编写和运行第一个Java程序,并简要介绍了Eclipse集成开发环境的安装和使用。 ... [详细]
  • Leetcode学习成长记:天池leetcode基础训练营Task01数组
    前言这是本人第一次参加由Datawhale举办的组队学习活动,这个活动每月一次,之前也一直关注,但未亲身参与过,这次看到活动 ... [详细]
  • PHP 5.5.31 和 PHP 5.6.17 安全更新发布
    PHP 5.5.31 和 PHP 5.6.17 已正式发布,主要包含多个安全修复。强烈建议所有用户尽快升级至最新版本以确保系统安全。 ... [详细]
  • iOS 不定参数 详解 ... [详细]
  • 本文详细介绍了 Spark 中的弹性分布式数据集(RDD)及其常见的操作方法,包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作,以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]
  • 本文介绍了如何在Python中使用插值方法将不同分辨率的数据统一到相同的分辨率。 ... [详细]
  • Manacher算法详解:寻找最长回文子串
    本文将详细介绍Manacher算法,该算法用于高效地找到字符串中的最长回文子串。通过在字符间插入特殊符号,Manacher算法能够同时处理奇数和偶数长度的回文子串问题。 ... [详细]
  • 深入理解二分查找及其应用
    二分查找是一种高效的搜索算法,适用于有序数据集合。其核心思想是通过不断将查找区间缩小一半,直至找到目标元素或区间为空。本文将详细介绍二分查找的基本原理、实现方法以及应用场景的局限性。 ... [详细]
  • 包含phppdoerrorcode的词条 ... [详细]
  • 本文详细介绍了如何在PHP中记录和管理行为日志,包括ThinkPHP框架中的日志记录方法、日志的用途、实现原理以及相关配置。 ... [详细]
author-avatar
袁冠和堂
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有