数据仓库中的OLTP与OLAP查询是怎样的

作者：WINNIE双双围脖_370 | 来源：互联网 | 2023-09-13 13:31

小编今天带大家了解数据仓库中的OLTP与OLAP查询是怎样的，文中知识点介绍的非常详细。觉得有帮助的朋友可以跟着小编一起浏览文章的内容，希望能够

小编今天带大家了解数据仓库中的OLTP与OLAP查询是怎样的，文中知识点介绍的非常详细。觉得有帮助的朋友可以跟着小编一起浏览文章的内容，希望能够帮助更多想解决这个问题的朋友找到问题的答案，下面跟着小编一起深入学习“数据仓库中的OLTP与OLAP查询是怎样的”的知识吧。

在业务数据处理的早期，对数据库的写操作通常对应于正在发生的商业交易-进行销售，与供应商下订单，支付员工的工资等。随着数据库扩展到不涉及的领域涉及货币易手，但是交易一词仍然存在，是指构成逻辑单元的一组读写操作。这些类型的查询称为事务处理系统查询(OLTP)。为这些查询设计的系统通常是面向用户的，这意味着它们可能会看到大量的请求。为了处理负载，应用程序通常仅在每个查询中触摸少量记录。该应用程序使用某种密钥来请求记录，而存储引擎使用索引来查找所请求密钥的数据。磁盘查找时间通常是这里的瓶颈。

但是，数据库也开始越来越多地用于数据分析，而这种数据分析具有非常不同的访问模式。通常，分析查询需要扫描大量记录，仅读取每条记录的几列，并计算汇总统计信息(例如计数，总和或平均值)，而不是将原始数据返回给用户。例如，如果您的数据是销售交易表，则分析查询可能是：

一月份，我们每家商店的总收入是多少?
在最近的促销活动中，我们售出的iPhone比平时多了多少?
哪个品牌的牛奶最常与家乐氏的玉米片一起购买?

这些查询通常由业务分析人员编写，并馈入有助于公司管理层做出更好决策(业务智能)的报告。为了将这种使用数据库的模式与事务处理区分开来，它被称为在线分析处理(OLAP)。它们之所以鲜为人知，是因为它们是由业务分析师而不是最终用户处理的。与OLTP系统相比，它们处理的查询量要少得多，但每个查询的要求通常很高，需要在短时间内扫描数百万条记录。磁盘带宽(不是寻道时间)通常是这里的瓶颈，而面向列的存储是此类工作负载越来越流行的解决方案。

OLTP和OLAP之间的区别并不总是很明确，但是下面列出了一些典型特征。

数据仓库中的OLTP与OLAP查询是怎样的

首先，将相同的数据库用于事务处理和分析查询。事实证明，SQL在这方面非常灵活：它对于OLTP类型查询和OLAP类型查询都适用。尽管如此，在1980年代末和1990年代初，公司有一种趋势是停止使用OLTP系统进行分析，而改为在单独的数据库上运行分析。这个独立的数据库称为数据仓库。

企业可能具有数十种不同的交易处理系统：为面向客户的网站提供动力的系统，实体商店中的销售点(结帐)系统，仓库中的库存跟踪，车辆路线规划，供应商管理，员工管理等。这些系统中的一个很复杂，需要一个团队来维护它，因此这些系统最终只能彼此独立地运行。通常期望这些OLTP系统具有高可用性，并以低延迟处理事务，因为它们通常对业务运营至关重要。因此，数据库管理员密切保护其OLTP数据库。他们通常不愿让业务分析人员在OLTP数据库上运行临时分析查询，因为这些查询通常很昂贵，会扫描数据集的大部分，这可能会损害并发执行事务的性能。

数据仓库

数据仓库中的OLTP与OLAP查询是怎样的

相比之下，数据仓库是一个独立的数据库，分析人员可以查询其内心的内容，而不会影响OLTP操作。数据仓库包含公司所有各种OLTP系统中数据的只读副本。从OLTP数据库中提取数据(使用定期数据转储或连续的更新流)，将其转换为易于分析的模式，进行清理，然后将其加载到数据仓库中。将数据放入仓库的过程称为"提取-转换-加载(ETL)"。现在，几乎所有大型企业都存在数据仓库，但在小型企业中几乎闻所未闻。这可能是因为大多数小型公司没有太多不同的OLTP系统;而且大多数小型公司的数据量都很小-足够小，可以在常规SQL数据库中查询，甚至可以在电子表格中进行分析。在大型公司中，要做一些在小型公司中简单的事情需要很多繁重的工作。

使用单独的数据仓库而不是直接查询OLTP系统进行分析的一大优势是，可以针对分析访问模式对数据仓库进行优化。某些数据库(例如Microsoft SQL Server和SAP HANA)在同一产品中支持事务处理和数据仓库。但是，它们越来越成为两个独立的存储和查询引擎，它们恰巧可以通过公共SQL接口进行访问。数据仓库供应商(例如Teradata，Vertica，SAP HANA和ParAccel)通常在昂贵的商业许可下销售其系统。 Amazon RedShift是ParAccel的托管版本。最近，出现了许多开源的SQL-onHadoop项目。他们很年轻，但旨在与商业数据仓库系统竞争。这些包括Apache hive，Spark SQL，Cloudera Impala，Facebook Presto，Apache Tajo和Apache Drill。其中一些是基于Google Dremel的想法。

Analytics的存储架构

根据应用程序的需求，在事务处理领域中会使用各种不同的数据模型。另一方面，在分析中，数据模型的多样性要少得多。许多数据仓库都以相当公式化的方式使用，称为星型模式(也称为维建模)。通常，将事实捕获为单个事件，因为这样可以在以后最大程度地进行分析。但是，这意味着事实表可能会变得非常大。

星星和雪花：

数据仓库中的OLTP与OLAP查询是怎样的

"星型模式"的名称来自以下事实：当可视化表关系时，事实表位于中间，并被其维度表包围; 这些桌子的连接就像星星的光芒。此模板的一种变体称为雪花模式，其中尺寸进一步细分为多个子维度。像Apple，Walmart或eBay这样的大企业，其数据仓库中可能有数十PB的事务历史记录，其中大多数实际上是表。

列式存储：

数据仓库中的OLTP与OLAP查询是怎样的

尽管事实表通常超过100列，但是典型的数据仓库查询一次只能访问其中的4或5。在大多数OLTP数据库中，存储以面向行的方式进行布局：表的一行中的所有值都彼此相邻存储。为了处理诸如"查找某项X在12月的平均销售额"之类的分析查询，面向行的存储引擎仍然需要将所有这些行(每个行包含100多个属性)从磁盘加载到内存中，解析它们并过滤掉不符合要求的条件，这可能会花费很长时间。面向列的存储背后的想法很简单：不要将一行中的所有值都存储在一起，而是将每一列中的所有值存储在一起。如果每列存储在单独的文件中，则查询仅需要读取和解析该查询中使用的那些列，这可以节省大量工作。

列压缩：

数据仓库中的OLTP与OLAP查询是怎样的

通常，一列中不同值的数量与行数相比很小(例如，零售商可能进行数十亿次销售交易，但只有100,000种不同产品)。根据列中的数据，可以使用不同的压缩技术-在数据仓库中特别有效的一种技术是位图编码。

现在，我们可以将一列包含n个不同的值，并将其转换为n个单独的位图-每个不同的值一个位图，每行一个位。如果行具有该值，则该位为1，否则为0。如果n很小(例如，一个国家/地区列可能具有大约200个不同的值)，则这些位图可以每行一位存储。

感谢大家的阅读，以上就是“数据仓库中的OLTP与OLAP查询是怎样的”的全部内容了，学会的朋友赶紧操作起来吧。相信编程笔记小编一定会给大家带来更优质的文章。谢谢大家对编程笔记网站的支持！

推荐阅读

apache
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21
apache
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
apache
Linux系统中设置服务启动优先级的方法

本文详细介绍了Linux系统中init进程的作用及其启动过程，解释了运行级别的概念，并提供了调整服务启动顺序的具体步骤和实例。通过了解这些内容，用户可以更好地管理系统的启动流程和服务配置。 ... [详细]

蜡笔小新 2024-12-25 16:16:05
require
ASP.NET Core 3.1 中的Startup类

Startup 类配置服务和应用的请求管道。Startup类ASP.NETCore应用使用 Startup 类，按照约定命名为 Startup。 Startup 类：可选择性地包括 ... [详细]

蜡笔小新 2024-12-25 02:13:25
php
Eclipse 开发环境配置与插件安装指南

本文详细介绍了如何准备和安装 Eclipse 开发环境及其相关插件，包括 JDK、Tomcat、Struts 等组件的安装步骤及配置方法。 ... [详细]

蜡笔小新 2024-12-24 19:47:22
shell
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
php
云计算的优势与应用场景

本文详细探讨了云计算为企业和个人带来的多种优势，包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点，并结合实际案例进行分析。 ... [详细]

蜡笔小新 2024-12-23 13:54:13
python
Python库在GIS与三维可视化中的应用

Python库极大地扩展了GIS的能力，使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库，这些库不仅增强了GIS的核心功能，还推动了地理信息系统向更高层次的应用发展。 ... [详细]

蜡笔小新 2024-12-13 17:24:24
metadata
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
php
JavaScript 中创建对象的多种方法

本文详细介绍了 JavaScript 中创建对象的几种常见方式，包括对象字面量、构造函数和 Object.create 方法，并提供了示例代码和属性描述符的解释。 ... [详细]

蜡笔小新 2024-12-22 16:40:51
split
解决Classic ASP与PHP HMAC_SHA256哈希结果不一致的问题

本文探讨了如何在Classic ASP中实现与PHP的hash_hmac('SHA256', $message, pack('H*', $secret))函数等效的哈希生成方法。通过分析不同实现方式及其产生的差异，提供了一种使用Microsoft .NET Framework的解决方案。 ... [详细]

蜡笔小新 2024-12-21 10:38:09
express
深入分析十大PHP开发框架

随着PHP技术的发展，各类开发框架层出不穷，成为了开发者们热议的话题。本文将详细介绍并对比十款主流的PHP开发框架，旨在帮助开发者根据自身需求选择最合适的工具。 ... [详细]

蜡笔小新 2024-12-17 11:15:55
split
R语言基础入门指南

本文介绍R语言的基本概念，包括其作为区分大小写的解释型语言的特点、主要的数据结构类型如向量、矩阵、数据框及列表等，并探讨了R语言中对象的灵活性与函数的应用。此外，文章还提供了关于如何使用R进行基本操作的示例，以及解决常见编程问题的方法。 ... [详细]

蜡笔小新 2024-12-16 16:35:03
split
读书笔记：《工业互联网技术与实践》解析

本文探讨了当前技术发展趋势，特别是大数据和人工智能如何推动工业互联网的发展。文章分析了全球主要国家在工业互联网领域的进展，并展望了未来工业互联网技术的发展方向。 ... [详细]

蜡笔小新 2024-12-16 10:37:38
php
Apache IoTDB：开源工业物联网数据库的崛起

2020年9月23日，全球领先的开源软件基金会——Apache软件基金会宣布，Apache IoTDB正式成为其顶级项目。Apache IoTDB是一款专为大规模物联网和工业物联网设计的开源数据库。 ... [详细]

蜡笔小新 2024-12-14 14:52:08

WINNIE双双围脖_370

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章