热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

OLAP市场现状和技术演进

1、OLAP市场发展现状随着5G、云计算、大数据、AI等技术的发展,全球数据量呈现爆发式增长:​到2025年,全球的数据量能达到175

1、OLAP 市场发展现状

随着 5G、云计算、大数据、 AI 等技术的发展,全球数据量呈现爆发式增长:

到 2025 年,全球的数据量能达到 175ZB(Zettabyte),其中近 30% 的数据需要被实时处理。2019 年到 2025 年,CAGR(平均年复合增长率)都达到了近 30%。

据 IDC 统计和预测, 2024 年全球数仓的市场规模将达到 297 亿美元,2019-2024 年的年复合增长率将达到 12%,其中云上的数仓市场规模将达到 181 亿美元,2019-2024 年的 CAGR 将达到 25.3%。预计 2024 年,中国数仓市场的规模是 168.5 亿元,中国大数据平台软件市场规模总体为 352.9 亿元,中国分析型数据库的整体市场将达到 521.4 亿元,复合增长率为 27.7%。

分析型数仓包括数据仓库、数据湖以及智能湖仓,因此分析型数据库的市场规模也是这三者之和,这是 IDC 的定义,我认为有一定道理。OLAP 数仓的适应面和适应度是最广的,所以把三者加起来等于这个市场规模之和是有一定道理的。

根据 IDC 的数据,2021 年中国数仓数据库的规模是 87.1 亿人民币,大数据平台的是 162.8 亿人民币。因此我们认为 2021 年中国分析型数据库的市场规模为 250 亿左右。

2、数仓技术架构演进路径

数仓的技术架构演进经历了一些过程,这些过程的产生不仅是历史的原因,现在各个企业也在同时经历整个过程,他们或多或少处在某一个阶段,而每个阶段都有一些痛点需要去解决。

第一个阶段,就是传统的离线架构。第一代是以 Apache Hive(以下简称 Hive)、MapReduce、HDFS 为代表的纯离线数仓。这个阶段下,很多公司刚开始搭自己的大数据技术,数据体量和数据规模都不是特别大,通常在 TB 级,维度也不是很多。业务团队的需求通常是 T+1 型的固定报表任务,它的架构痛点非常明显,就是离线大数据架构不能处理实时业务,固定报表反馈出的数据价值是很低的。

第二阶段,从传统离线架构到 Lambda 架构的演进。这个阶段特征是随着业务和企业数据体量的快速发展,从 TB 级到 PB 级,企业内部对于数仓提出了实时分析的要求,且维度也变得更加多元化和复杂化。传统离线 T+1 的架构已无法满足业务需求了。

Lambda 架构是在原来的离线数仓基础上增加了一个实时计算链路。在业务数据采集后分成两条线进行计算:一条是走 “流”,做指标分析,实时的;一条是走 “批量”,做离线的 T+1 的业务指标,是近几年比较广泛应用的架构。

但是 Lambda 架构有比较明显的缺点,一个是在业务开发过程中都是相对独立的烟囱式开发设计,在各业务间的数据规范统一、处理数据流程统一和数据复用等方面都做得不理想。Lambda 架构最大的问题是针对同一个需求要开发两套代码,同时去跑 “批” 和跑 “流”,写好代码之后还需要构造数据测试,保证两者结果一致。两套代码对后期的维护也非常麻烦。一旦需求变更,两套代码都需要修改,两套代码也需要同时上线,运维成本很高。同样的逻辑需要计算两次,整体占用资源会增多。由于 “批”、“流” 两个过程都需要将数据存储在集群中,并且过程中会产生大量临时数据,就会导致数据急速膨胀,加大服务器存储的压力。


推荐阅读
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本指南详细介绍了如何在CentOS 6.6 64位系统上以root用户身份部署Tomcat 8服务器。系统环境为CentOS 6.6 64位,采用源码安装方式。所需软件为apache-tomcat-8.0.23.tar.gz,建议将软件下载至/root/opt目录。具体下载地址请参见官方资源。本指南涵盖了从环境准备到服务启动的完整步骤,适用于需要在该系统环境下搭建高性能Web应用服务器的技术人员。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • Docker入门指南:初探容器化技术
    Docker入门指南:初探容器化技术摘要:Docker 是一个使用 Go 语言开发的开源容器平台,旨在实现应用程序的构建、分发和运行的标准化。通过将应用及其依赖打包成轻量级的容器,Docker 能够确保应用在任何环境中都能一致地运行,从而提高开发和部署的效率。本文将详细介绍 Docker 的基本概念、核心功能以及如何快速上手使用这一强大的容器化工具。 ... [详细]
  • 在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量,分析了当输入数据超过128MB时是否会自动拆分,以及Map数量是否越多越好的问题。通过实际案例和实验数据,本文提供了具体的配置建议,帮助用户在不同场景下实现最佳性能。 ... [详细]
  • Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及流式消费变化数据的能力。应用场景近实时数据摄取Hudi支持插入、更新和删除数据的能力。您 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中,如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时,数据库会自动生成三个关键表:`activemq_msgs`、`activemq_lock`和`activemq_ACKS`,分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性,还增强了系统的可扩展性和容错能力。 ... [详细]
  • 提升 Kubernetes 集群管理效率的七大专业工具
    Kubernetes 在云原生环境中的应用日益广泛,然而集群管理的复杂性也随之增加。为了提高管理效率,本文推荐了七款专业工具,这些工具不仅能够简化日常操作,还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查,这些工具覆盖了集群管理的各个方面,帮助管理员更好地应对挑战。 ... [详细]
  • PHP自学必备:从零开始的准备工作与工具选择 ... [详细]
  • 从无到有,构建个人专属的操作系统解决方案
    操作系统(OS)被誉为程序员的三大浪漫之一,常被比喻为计算机的灵魂、大脑、内核和基石,其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案,涵盖从需求分析到系统设计、开发与测试的全过程,帮助读者深入理解操作系统的本质与实现方法。 ... [详细]
  • 深入解析Wget CVE-2016-4971漏洞的利用方法与安全防范措施
    ### 摘要Wget 是一个广泛使用的命令行工具,用于从 Web 服务器下载文件。CVE-2016-4971 漏洞涉及 Wget 在处理特定 HTTP 响应头时的缺陷,可能导致远程代码执行。本文详细分析了该漏洞的成因、利用方法以及相应的安全防范措施,包括更新 Wget 版本、配置防火墙规则和使用安全的 HTTP 头。通过这些措施,可以有效防止潜在的安全威胁。 ... [详细]
  • 本文精选了几个结合 Vue 和 Spring Boot 的优质开源项目,适合开发者学习和参考。这些项目不仅涵盖了前后端分离的最佳实践,还提供了丰富的功能示例和详细的文档,有助于提升开发效率和技术水平。项目地址:https://github.com/ 示例链接。 ... [详细]
  • 为何Serverless将成为未来十年的主导技术领域?
    为何Serverless将成为未来十年的主导技术领域? ... [详细]
author-avatar
白大姐
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有