热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

多维数据库OracleEssbase和IBMCogons底层原理

多维数据库(MultiDimensionalDatabase,MDD)使用Dimension(维度)和Cube(数据立方体、数据集市)模型描述数据。多维数据模型多维数据模型关系型数

多维数据库(Multi Dimensional Database,MDD)使用Dimension(维度)和Cube(数据立方体、数据集市)模型描述数据。

多维数据库 Oracle Essbase 和 IBM Cogons 底层原理

多维数据模型

关系型数据库(Relational Database,RDB)中的星型结构或雪花型结构就是模拟上述多维模型结构的,但无法提供真正意义上的多维数据分析能力,这里不做过多解释。

下文讲解Oracle Essbase以及IBM Cogons这种真正的多维数据库的原理。

多维数据库中模型结构与事实数据分别以概要文件(profile)和数据块(data block)的形式存在。

多维数据库 Oracle Essbase 和 IBM Cogons 底层原理

profile和data block

概要文件用来描述以下信息:

  1. 维度和维度成员信息
  2. 与维度相关的层级(Hierarchy)和级别(Level)信息
  3. Cube的描述性信息,以及Cube与维度的关联性
  4. 其他描述性的信息,如实体模型属性

Cube中度量数据存放在data block中,data block可以被理解成为多维数组结构,其大小与相关维度的明细成员数量有直接关系。

计算公式:data block size = 维度1明细成员总数 * 维度2明细成员总数 * …… * 维度N明细成员总数

数据块容量等于相关维度明细成员数量的笛卡尔积。

多维数据库 Oracle Essbase 和 IBM Cogons 底层原理

数据块大小

明细度量值一般采用double类型,按8bytes算,上图所描述的Cube的数据块大小为480bytes。

除了数据块中的明细度量值外,其他非明细度量值并没有直接存储,因为其可以通过对应的明细度量值计算出来。

多维数据库 Oracle Essbase 和 IBM Cogons 底层原理

非明细度量值计算方式

一些不存在的度量值会造成数据空洞问题,假设2018年4季度河北省B品牌手机的销售量是未知的,则会在数据块中产生一个空洞。

注意:数据空洞表示不存在的值,与数值0的意义不同,数值0表示一个有意义的值。

如果数据空洞比较多,则数据块的数据密度就会下降,将造成存储空间的浪费。

多维数据库 Oracle Essbase 和 IBM Cogons 底层原理

数据空洞

除了数据空洞问题,还存在数据爆炸问题。数据块大小由全部维度明细成员数量的笛卡尔积决定,假如某个Cube关联三个维度,每个维度明细成员数量均为100,则:data block size = 100 ^ 3 = 1000000,如果度量值按double类型存储(8bytes),数据块文件大约为7.62M。如果每个维度明细成员数量增加至150,则数据块文件将膨胀到25.74M(data block size = 150 ^ 3 * 8bytes / 1024 / 1024)。

当数据块极度膨胀并且存在很多数据空洞的时候,会极大地浪费存储空间,并且可能导致数据存储无法实现。

多维数据库 Oracle Essbase 和 IBM Cogons 底层原理

极度膨胀和存在大量空洞的多维数组

为了解决数据空洞和数据膨胀问题,引入了密集维度组合和稀疏维组合的概念。

判断维度组合是密集还是稀疏的原则是看其所对应的明细度量值的存在情况,例如:

  1. 北京地区只有ABC三种手机的销售额,天津地区只有BCD三种手机的销售额,河北地区卖出的手机只有AE两种,表明并不是每个地区对于每一种手机都有销售额,所以地区与产品属于稀疏的维度组合。
  2. 2018年的四个季度都有手机销售额,所以日期维度自身可以构成密集的维度组合。

注意!在其他讲解多维数据库的文章中都把维度分为稀疏维与密集维,这是非常错误的,对于维度本身来讲没有稀疏与密集之分,稀疏与密集表示的是维度之间的组合!对于有N个维度的Cube而言,如果其只有一个维度退化成索引,或者有N - 1个维度退化成索引,则此时稀疏与密集的维组合只包含一个维度,但这只是一种特例,并不代表维度本身是稀疏或密集的。

在引入稀疏与密集的维度组合之后,原本由于数据空洞和数据爆炸而失控的数据块结构将变成索引和密度相对较高的小数据块结构。

多维数据库 Oracle Essbase 和 IBM Cogons 底层原理

索引和小数据块

之前数据文件大小为3 * 4 * 5 = 60,结构变换之后每个小数据块大小为4(共8个),在不计算索引所占存储大小的情况下,存储容量变为原来的一半。

度量值的变化可能引起稀疏维度组合和密集维度组合的改变,如下图所示。

多维数据库 Oracle Essbase 和 IBM Cogons 底层原理

重构

虽然解决了数据空洞和数据爆炸的问题,但稀疏与密集的维组合所带来的负作用是一旦度量值的变化导致了数据块密度中心的改变,相关的索引和子数据块必须重构,而这种重构的性能代价与时间成本是极为昂贵的。Cogons、Essbase等传统多维数据库以及其他MOLAP都存在此问题。

基于矢量计算引擎(Vector Calculation Engine)的新型分布式多维数据库很好的解决了数据重构问题。

矢量计算引擎将海量数据的运算从多维数据库核心分离出来,进而将多维分析时的逻辑运算与聚集计算解耦。多维数据库核心只负责逻辑运算,完全不需要再考虑数据量的问题。矢量计算引擎采用极为简单的数据结构存储TB、PB级数据,并且只负责进行一种算法上极为简单的聚集运算,针对此种特性,适宜采用更加接近底层的编程语言进行开发(如C语言),不仅得到了性能上的提升,也因为数据存储结构的简单而获得了更加稳定的运行效果。

多维数据库 Oracle Essbase 和 IBM Cogons 底层原理

基于矢量计算引擎的多维数据库

如上图所示,在多维数据库内核角度来看,矢量计算引擎是更加底层的一种基础服务,所以可以根据各种应用场景切换不同的实现方式,而这一切对于多维数据库内核来说都是透明的,多维数据库本身对更上层的应用提供一致的数据查询能力,从而更好的支持了100%面向业务的探索式数据分析能力。


推荐阅读
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 图数据库中的知识表示与推理机制
    本文探讨了图数据库及其技术生态系统在知识表示和推理问题上的应用。通过理解图数据结构,尤其是属性图的特性,可以为复杂的数据关系提供高效且优雅的解决方案。我们将详细介绍属性图的基本概念、对象建模、概念建模以及自动推理的过程,并结合实际代码示例进行说明。 ... [详细]
  • 本文详细探讨了JDBC(Java数据库连接)的内部机制,重点分析其作为服务提供者接口(SPI)框架的应用。通过类图和代码示例,展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]
  • 本文探讨了MariaDB在当前数据库市场中的地位和挑战,分析其可能面临的困境,并提出了对未来发展的几点看法。 ... [详细]
  • 探讨如何从数据库中按分组获取最大N条记录的方法,并分享新年祝福。本文提供多种解决方案,适用于不同数据库系统,如MySQL、Oracle等。 ... [详细]
  • 20100423:Fixes:更新批处理,以兼容WIN7。第一次系统地玩QT,于是诞生了此预备式:【QT版本4.6.0&#x ... [详细]
  • 本文详细介绍了 MySQL 数据库中的基础操作,包括创建、查询、修改和删除数据库、表及数据的命令。通过具体的 SQL 语句示例,帮助读者快速掌握 MySQL 的基本操作。 ... [详细]
  • 本文介绍了数据库体系的基础知识,涵盖关系型数据库(如MySQL)和非关系型数据库(如MongoDB)的基本操作及高级功能。通过三个阶段的学习路径——基础、优化和部署,帮助读者全面掌握数据库的使用和管理。 ... [详细]
  • 本文详细介绍了优化DB2数据库性能的多种方法,涵盖统计信息更新、缓冲池调整、日志缓冲区配置、应用程序堆大小设置、排序堆参数调整、代理程序管理、锁机制优化、活动应用程序限制、页清除程序配置、I/O服务器数量设定以及编入组提交数调整等方面。通过这些技术手段,可以显著提升数据库的运行效率和响应速度。 ... [详细]
  • 本章将深入探讨移动 UI 设计的核心原则,帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧,您将能够创建出既美观又实用的移动应用。 ... [详细]
  • 本文详细介绍了 Apache Jena 库中的 Txn.executeWrite 方法,通过多个实际代码示例展示了其在不同场景下的应用,帮助开发者更好地理解和使用该方法。 ... [详细]
  • PostgreSQL 10 离线安装指南
    本文详细介绍了如何在无法联网的服务器上进行 PostgreSQL 10 的离线安装,并涵盖了从下载安装包到配置远程访问的完整步骤。 ... [详细]
  • 通过Web界面管理Linux日志的解决方案
    本指南介绍了一种利用rsyslog、MariaDB和LogAnalyzer搭建集中式日志管理平台的方法,使用户可以通过Web界面查看和分析Linux系统的日志记录。此方案不仅适用于服务器环境,还提供了详细的步骤来确保系统的稳定性和安全性。 ... [详细]
  • 本文介绍了Oracle和IBM DB2数据库管理系统当前的最新版本,包括它们的主要特点、功能改进以及发布日期。文章详细探讨了两个系统在企业级应用中的表现,并提供了对各自版本更新的重点解析。 ... [详细]
author-avatar
手机用户2502922313
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有