热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

数据仓库中数据粒度

粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。确定粒度是数据仓库开发者需要面对的一个重要的设计问题。如果数据仓库的粒度确定

粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。确定粒度是数据仓库开发者需要面对的一个重要的设计问题。如果数据仓库的粒度确定

粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。确定粒度是数据仓库开发者需要面对的一个重要的设计问题。如果数据仓库的粒度确定合理,设计和实现中的其余方面就可以非常顺畅地进行;反之,如果粒度确定的不合理就会是其他所有方面都很难进行。粒度对于数据仓库体系结构设计人员来说,非常重要,因为粒度会影响到那些依赖于从中获取数据的数据仓库的所有环境。

粒度的主要问题是使其处于一个合适的级别,粒度的级别既不能太高也不能太低。低的粒度级别能提供详尽的数据,但要占用较多的存储空间和需要较长的查询时间。高的粒度级别能快速方便的进行查询,但不能提供过细的数据。在选择合适粒度级别的过程中,要结合业务的特点,分析的类型、依据的总的存储空间的等因素综合考虑。

数据仓库中的粒度模型

所谓粒度,指的是数据仓库中数据单元的细节程度或综合程度的级别,在数据仓库中记录数据或对数据进行综合时所使用的时间段参数(《数据仓库和数据挖掘》)。它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。 粒度可分为两种形式,第一种形式的粒度是对数据仓库中数据综合程度高低的一个度量,它及影响到数据仓库中数据量的多少,也能影响到数据仓库所能回答的讯问的种类。粒度越小,则详细程度越高,综合程度就越低,回答讯问的种类越多;相反,粒度越大,则向此程度越低,综合程度越高,回答讯问的种类也就越少。另一种形式的粒度是样本数据库粒度,与同城意义下的粒度不同。样本数据库粒度界别不是根据综合层序的不同来划分的,而是根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别。样本数据库一般是以一定的样本率从细节档案数据或轻度综合数据中抽取的一个自己。它是根据一定需求从数据源中获得一个样本,因而也就不能回答一些细节性的问题。样本数据库的抽取可以按照数据的重要程度不同来进行。 文章整理于网络,如有错误,欢迎指出。
推荐阅读
  • 深入探讨CPU虚拟化与KVM内存管理
    本文详细介绍了现代服务器架构中的CPU虚拟化技术,包括SMP、NUMA和MPP三种多处理器结构,并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景,帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]
  • 利用决策树预测NBA比赛胜负的Python数据挖掘实践
    本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据,结合《Python数据挖掘入门与实践》一书中的方法,展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]
  • 致信息安全爱好者的成长指南
    本文旨在为信息安全爱好者提供一份详尽的成长指南,涵盖从学习心态调整到具体技能提升的各个方面。 ... [详细]
  • 本文探讨了数据挖掘技术的发展及其在大数据环境下的应用流程,重点介绍了统计学、在线分析处理、信息检索、机器学习、专家系统和模式识别等领域的最新进展。 ... [详细]
  • 解决getallheaders函数导致的500错误及8种服务器性能优化策略
    本文探讨了解决getallheaders函数引起的服务器500错误的方法,并介绍八种有效的服务器性能优化技术,包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]
  • 大数据核心技术解析
    本文深入探讨了大数据技术的关键领域,包括数据的收集、预处理、存储管理、以及分析挖掘等方面,旨在提供一个全面的技术框架理解。 ... [详细]
  • 本文探讨了最大互信息系数(MIC)在评估基因间线性和非线性关系中的应用。与传统的互信息(Mutual Information, MI)相比,MIC在检测复杂关联方面表现出更高的精确度。 ... [详细]
  • 构建基于Python的用户画像系统
    用户画像在现代企业运营中扮演着重要角色,尤其在大数据分析和精准营销领域。本文旨在介绍用户画像的基础概念及其重要性,并通过Python编程语言实现一个基础的用户画像系统。 ... [详细]
  • 本文探讨了数据挖掘的全面理解和其理论基础,强调了数据挖掘在现代社会和经济活动中扮演的关键角色。通过对数据的深入分析,我们可以揭示隐藏在大量信息背后的模式和趋势。 ... [详细]
  • 使用R语言进行Foodmart数据的关联规则分析与可视化
    本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况,然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]
  • CISSP 第8章 软件开发安全概述与实践
    本文探讨了软件开发中的安全问题,包括但不限于满足功能需求与安全性之间的平衡、SDLC(软件开发生命周期)中安全的重要性、OWASP的最佳实践、不同的开发模型、能力成熟度模型、变更控制流程、软件托管服务以及不同代际的编程语言等。此外,还涉及了Web环境下的特定威胁、多层次的攻击防御、数据仓库与数据挖掘技术及其应用模型、恶意软件的识别与防范措施等内容。 ... [详细]
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 本文详细介绍了如何使用NumPy、Pandas和Matplotlib进行数据分析和数据可视化。通过具体的代码示例,帮助读者更好地理解和应用这些强大的Python库。 ... [详细]
  • 本文整理了关于Sia去中心化存储平台的重要网址和资源,旨在为研究者和用户提供全面的信息支持。 ... [详细]
author-avatar
陪-祥到最-後
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有