热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

数据挖掘:数据仓库相关知识笔记

1、数据仓库介绍数据仓库(DW):可以满足管理人员的决策分析需要,在数据库基础上产生了满足决策分析需要的数据环境。传统数据库

             

 

1、数据仓库介绍

数据仓库(DW):可以满足管理人员的决策分析需要,在数据库基础上产生了满足决策分析需要的数据环境。

传统数据库和数据仓库比较

比较内容

传统数据库

数据仓库

数据内容

当前数据

历史的、存档的、归纳的、计算的

数据目标

面向业务操作员,重复处理

面向主题、分析应用

数据特性

动态变化、按字段更新

静态、不能直接更新、只能定时添加、刷新

数据结构

高度结构化、复杂、适合操作计算

简单、适合分析

数据使用频率

数据访问量

每个事务只访问少量的记录

有的事务可能需要访问大量的记录

响应要求

以秒为单位计算

分钟、甚至小时为计算单位

2、数据仓库的基本特性

面向主题:数据仓库中数据是面向主题进行组织的,主题就是一个较高的管理层次上对信息系统中数据按照某一具体的管理对象进行归类、综合所形成的分析对象。比如企业中哪些产品畅销、竞争对手哪些产品对本企业产品构成威胁。

数据是集成的:根据决策分析的要求,将分散于各处的原始数据进行抽取、筛选、清理、综合等集成工作,数据仓库的数据具有集成性。

一般情况下数据仓库所需要的数据不需要直接从业务发生地获取数据,而是针对原数据库挑选中数据仓库所需要的数据,然后将来自不同数据库中的数据按照某一标准进行统一处理。

数据是相对稳定的:因为数据仓库的数据主要是供决策分析使用,一般主要是数据查询操作,不进行修改等操作。数据反映的是一段相当长的时间内历史数据的内容,是不同时间的数据库快照的集合,然后进行统计、综合、分组的导出数据。

数据是反映历史变化的:主要表现三个方面,数据仓库随时间变化不断增加新的数据内容,定时获取OLTP数据库中变化的数据追加到数据仓库中去;

随时间变化不断删除旧的数据内容;数据仓库中包含大量综合数据会隔一段时间进行抽样处理等。

3、数据仓库的模式

主要有星型模式、雪花模式、事实星型模式。

4、数据仓库的体系结构

底层:数据仓库服务器。一般是关系数据库系统,数据仓储服务器从操作型数据库或外部数据源提取数据对数据进行清理、转换、集成等然后装入数据仓库中。

中间层:OLAP服务器。可以实现关系型OLAP提供多维数据的支持;也可以是多维的OLAP服务器,支持多维数据存储存储和操作。

顶层:前端工具。主要包括查询、报表工具、分析工具、数据挖掘工具。

5、数据仓储模型

5.1 企业仓库

收集跨越整个企业的各个主题所有信息。提供全企业范围的数据集成,数据通常来自多个操作型数据库和外部信息的提供者,并且可以跨越多个功能范围。

5.2 数据集市

包含对特定用户有用的、企业范围数据的一个子集。它的范围限于选定的主题。

5.3 虚拟仓库

虚拟仓库是操作型数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。虚拟仓库易于建立,但需要操作型数据库服务器具有剩余的能力。

 

IT技术分享社区

个人博客网站:https://programmerblog.xyz

文章推荐程序员效率:画流程图常用的工具程序员效率:整理常用的在线笔记软件远程办公:常用的远程协助软件,你都知道吗?51单片机程序下载、ISP及串口基础知识硬件:断路器、接触器、继电器基础知识

 

 

 

 

 

 

 

 

 

 

 

 

 



推荐阅读
  • 本文介绍了如何使用Workman框架构建一个功能全面的即时通讯系统,该系统不仅支持一对一聊天、群组聊天,还集成了视频会议和实时音视频通话功能,同时提供了红包发送等附加功能。 ... [详细]
  • Spring Boot 初学者指南(第一部分)
    本文介绍了Spring Boot框架的基础知识,包括其设计理念、主要优势以及如何简化传统的J2EE开发流程。 ... [详细]
  • 本文深入探讨了分布式文件系统的核心概念及其在现代数据存储解决方案中的应用,特别是针对大规模数据处理的需求。文章不仅介绍了多种流行的分布式文件系统和NoSQL数据库,还提供了选择合适系统的指导原则。 ... [详细]
  • Golang与微服务架构:构建高效微服务
    本文探讨了Golang在微服务架构中的应用,包括Golang的基本概念、微服务开发的优势、常用开发工具以及具体实践案例。 ... [详细]
  • 时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接,可以构建多维度报表,揭示数据的趋势、规律及异常情况。 ... [详细]
  • 本文介绍了多种Eclipse插件,包括XML Schema Infoset Model (XSD)、Graphical Editing Framework (GEF)、Eclipse Modeling Framework (EMF)等,涵盖了从Web开发到图形界面编辑的多个方面。 ... [详细]
  • 本文详细解析了Java中流的概念,特别是OutputStream和InputStream的区别,并通过实际案例介绍了如何实现Java对象的序列化。文章不仅解释了流的基本概念,还探讨了序列化的重要性和具体实现步骤。 ... [详细]
  • 本文整理了关于Sia去中心化存储平台的重要网址和资源,旨在为研究者和用户提供全面的信息支持。 ... [详细]
  • Web网络基础
    目录儿1使用HTTP协议访问Web2HTTP的诞生2.1因特网的起源2.2互联网、因特网与万维网2.3万维网与HTTP3网络基础TCPIP3.1TCPIP协议族3.2TCPIP的分 ... [详细]
  • Python中调用Java代码的方法与实践
    本文探讨了如何在Python环境中集成并调用Java代码,通过具体的步骤和示例展示了这一过程的技术细节。适合对跨语言编程感兴趣的开发者阅读。 ... [详细]
  • 本文探讨了在Qt框架下实现TCP多线程服务器端的方法,解决了一个常见的问题:服务器端仅能与最后一个连接的客户端通信。通过继承QThread类并利用socketDescriptor标识符,实现了多个客户端与服务器端的同时通信。 ... [详细]
  • 抽象工厂模式 c++
    抽象工厂模式包含如下角色:AbstractFactory:抽象工厂ConcreteFactory:具体工厂AbstractProduct:抽象产品Product:具体产品https ... [详细]
  • UMPlatForm.NET 5.1 版本数据字典管理功能解析
    本文介绍了 UMPlatForm.NET 5.1 版本中的数据字典管理模块,探讨了该模块如何支持平台的数据共享与管理,以及如何通过用户和角色权限来增强系统的安全性。 ... [详细]
  • 万事起于配置开发环境
    万事起于配置开发环境 ... [详细]
  • 对于初次购买阿里云服务器的新手用户来说,如何高效地利用服务器资源并成功部署网站是一个重要的课题。本文将详细指导您完成从购买服务器到网站上线的六个关键步骤。 ... [详细]
author-avatar
00zhhl_513
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有