热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

数据仓库模型设计

数据仓库的模型设计A.数据建模方法论数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。模型设计分为三个阶段:1,概念模型对业务的范围和使用,从高度上进行抽象概括,也就是划

数据仓库的模型设计

A. 数据建模方法论

数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。

模型设计分为三个阶段:

1,概念模型

对业务的范围和使用,从高度上进行抽象概括,也就是划分主题域。

一般划分为8个主题域:

客户、服务、服务使用、账务、结算、资源、客服、营销

为什么要划分主题域?

划分主题域,是根据业务的应用和需要来划分的,是用来达到数据与业务紧耦合的目的

2,逻辑模型

对概念模型中的主题进行细化,定义实体与实体之间的关系,和实体的属性。

即定义具体表的作用,表与表的约束,表的字段。形成ER图。

这些实体的设计都是基于业务规则,可以说,这一阶段主要面对的是业务。也就是“业务驱动建模

3,物理模型

依照逻辑模型,在数据库中进行建表、索引等。数据仓库,为了满足高性能的需求,可以增加冗余、隐藏表之间的约束等反第三范式操作

这一阶段,主要针对的是数据库、硬件、性能。

范式

第一范式:数据库表的字段都是单一属性,不可再分。

第二范式:数据库表中不存在非关键字段对任一候选关键字段的部分函数依赖。

(部分函数依赖指的是存在组合关键字中的某些字段决定非关键字段的情况)。即要求所有属性都依赖于主键。

第三范式:数据库表中不存在非关键字段对任一候选关键字段的传递函数依赖

范式是向下兼容的。

例如:

学生ID学生名称学生部门课程ID课程名称成绩
60100张三教育学院,心理系,1班English_1英语180

1)违反第一范式。因为:学生部门可以分解为:学院,系,班级

2)违反第二范式。因为:关键字段是学生ID和课程ID, 但存在“课程ID”决定课程名称和课程学分。

3)违反第三范式。因为:关键字段是学生ID,但存在可能名称和学分依赖“课程ID”。

星型模型和雪花模型

首先,他们都是由一个事实表和一组维度表组成。

星型模型,也被称为维度建模

区别在于:

星型模型:维度表直接跟事实表连接,图型像星星。

如区县和地市做为同一维度都在地市表中。

*维度预处理,维度会预先进行分类,排序等预处理。

雪花模型:一些维度表不是直接与事实表连接,而是通过维度表中转,图形像雪花。

例如:

图1:星型模型

图2 雪花模型

从性能来看,星型模型查询性能好。

为了提高性能,可以允许违反第三范式,适当的冗余、隐藏表之间的约束

维度建模

将商业维度融合到数据模型中,由此得名维度建模。

或者说,为了分析方便(商业应用要求),将同一维度的不同层次的维度(如地市ID,区县ID)都融合到事实表中(如用户宽表)。

维度模型也是星型模型。

它 强调的是先对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表,如上面的用户统一视图。包含了20多个维度。这样可以组合各维度,形成灵活的报表查询

B. 分层设计原则

电信行业的数据仓库都采用了分层设计原则。

总的来说,分三层:接口层、中间汇总层和应用层。

应用层数据集市地市数据集市、数据挖掘
应用层KPI报表、cagnos、主题分析、指标库
中间层深度汇总层信息聚合:用户统一视图、3G用户统一视图、固话用户统一视图
业务拓展:用户行为、增值业务、集团业务、国际业务
轻度汇总层清单汇总、用户属性聚合、费用汇总、集团客户汇总等
接口层存储层接口备份、增量转全量、减少I/O(分常用数据和历史数据)
接口层日接口、月接口、增量接口、全量接口

特别强调的是:

中间层是数据仓库最重要的一层。直接决定了数据仓库的性能。

一般的做法是:

1)数据汇总。将底层数据按维度进行小颗粒度汇总

2)信息聚合。将多张表的信息聚合在一个表中。这样的好处,是避免使用表关联,提高查询性能。

C. 主题域设计方法

如果说分层设计,是横向的设计原则,那么主题分域是纵向的处理方法。

具体做法就是从业务上,高度的抽象和归纳,将数据划分为不同的主题域。

分域后的好处:业务紧耦合、便于数据拓展、便于使用。

域是要具有明显的表命名规则,如:

用户信息域—— user

通信行为—— call

数据业务—— gprs

账务 —— bill

客户服务—— serv

xx经分系统的数据架构图:


推荐阅读
  • 数据集成策略:ETL与ELT架构对比及工具选择
    随着企业信息化的深入发展,‘数据孤岛’问题日益突出,阻碍了数据的有效利用与整合。本文探讨了如何通过构建数据仓库解决这一问题,重点分析了ETL与ELT两种数据处理架构的特点及适用场景,为企业选择合适的ETL工具提供了指导。 ... [详细]
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • FinOps 与 Serverless 的结合:破解云成本难题
    本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理,提出了首个 Serverless 函数总成本估计模型,并分享了多种有效的成本优化策略。 ... [详细]
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • Netflix利用Druid实现高效实时数据分析
    本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid,实现了高效的数据采集、处理和实时分析,从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践,并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]
  • 创邻科技成功举办Graph+X生态合作伙伴大会,30余家行业领军企业共聚杭州
    9月22日,创邻科技在杭州举办“Graph+X”生态合作伙伴大会,汇聚了超过30家行业头部企业的50多位企业家和技术领袖,共同探讨图技术的前沿应用与发展前景。 ... [详细]
  • 智能全栈云风暴:AI引领的企业转型之路
    当提及AI,人们脑海中常浮现的是天才少年独自编写算法,瞬间点亮机器人的双眼。然而,真正的AI革命正由大型企业和机构推动,它们利用全栈全场景AI技术,实现数字化与智能化的深度转型。 ... [详细]
  • vivo Y5s配备了联发科Helio P65八核处理器,这款处理器采用12纳米工艺制造,具备两颗高性能Cortex-A75核心和六颗高效能Cortex-A55核心。此外,它还集成了先进的图像处理单元和语音唤醒功能,为用户提供卓越的性能体验。 ... [详细]
  • 如何使用 CleanMyMac X 2023 激活码解锁完整功能
    本文详细介绍了如何使用 CleanMyMac X 2023 激活码解锁软件的全部功能,并提供了一些优化和清理 Mac 系统的专业建议。 ... [详细]
  • 程序员如何优雅应对35岁职业转型?这里有深度解析
    本文探讨了程序员在职业生涯中如何通过不断学习和技能提升,优雅地应对35岁左右的职业转型挑战。我们将深入分析当前热门技术趋势,并提供实用的学习路径。 ... [详细]
  • 掌握Python岗位,你需要了解的关键技能
    最近,在社交平台脉脉上,一条关于Python岗位的消息引起了广泛关注。本文将探讨Python岗位的实际价值,并深入解析阿里巴巴等大公司在面试Python开发者时常见的问题。 ... [详细]
  • 致信息安全爱好者的成长指南
    本文旨在为信息安全爱好者提供一份详尽的成长指南,涵盖从学习心态调整到具体技能提升的各个方面。 ... [详细]
author-avatar
木又的思念_740
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有