作者:白大姐 | 来源:互联网 | 2023-09-15 21:21
1、OLAP 市场发展现状
随着 5G、云计算、大数据、 AI 等技术的发展,全球数据量呈现爆发式增长:
到 2025 年,全球的数据量能达到 175ZB(Zettabyte),其中近 30% 的数据需要被实时处理。2019 年到 2025 年,CAGR(平均年复合增长率)都达到了近 30%。
据 IDC 统计和预测, 2024 年全球数仓的市场规模将达到 297 亿美元,2019-2024 年的年复合增长率将达到 12%,其中云上的数仓市场规模将达到 181 亿美元,2019-2024 年的 CAGR 将达到 25.3%。预计 2024 年,中国数仓市场的规模是 168.5 亿元,中国大数据平台软件市场规模总体为 352.9 亿元,中国分析型数据库的整体市场将达到 521.4 亿元,复合增长率为 27.7%。
分析型数仓包括数据仓库、数据湖以及智能湖仓,因此分析型数据库的市场规模也是这三者之和,这是 IDC 的定义,我认为有一定道理。OLAP 数仓的适应面和适应度是最广的,所以把三者加起来等于这个市场规模之和是有一定道理的。
根据 IDC 的数据,2021 年中国数仓数据库的规模是 87.1 亿人民币,大数据平台的是 162.8 亿人民币。因此我们认为 2021 年中国分析型数据库的市场规模为 250 亿左右。
2、数仓技术架构演进路径
数仓的技术架构演进经历了一些过程,这些过程的产生不仅是历史的原因,现在各个企业也在同时经历整个过程,他们或多或少处在某一个阶段,而每个阶段都有一些痛点需要去解决。
第一个阶段,就是传统的离线架构。第一代是以 Apache Hive(以下简称 Hive)、MapReduce、HDFS 为代表的纯离线数仓。这个阶段下,很多公司刚开始搭自己的大数据技术,数据体量和数据规模都不是特别大,通常在 TB 级,维度也不是很多。业务团队的需求通常是 T+1 型的固定报表任务,它的架构痛点非常明显,就是离线大数据架构不能处理实时业务,固定报表反馈出的数据价值是很低的。
第二阶段,从传统离线架构到 Lambda 架构的演进。这个阶段特征是随着业务和企业数据体量的快速发展,从 TB 级到 PB 级,企业内部对于数仓提出了实时分析的要求,且维度也变得更加多元化和复杂化。传统离线 T+1 的架构已无法满足业务需求了。
Lambda 架构是在原来的离线数仓基础上增加了一个实时计算链路。在业务数据采集后分成两条线进行计算:一条是走 “流”,做指标分析,实时的;一条是走 “批量”,做离线的 T+1 的业务指标,是近几年比较广泛应用的架构。
但是 Lambda 架构有比较明显的缺点,一个是在业务开发过程中都是相对独立的烟囱式开发设计,在各业务间的数据规范统一、处理数据流程统一和数据复用等方面都做得不理想。Lambda 架构最大的问题是针对同一个需求要开发两套代码,同时去跑 “批” 和跑 “流”,写好代码之后还需要构造数据测试,保证两者结果一致。两套代码对后期的维护也非常麻烦。一旦需求变更,两套代码都需要修改,两套代码也需要同时上线,运维成本很高。同样的逻辑需要计算两次,整体占用资源会增多。由于 “批”、“流” 两个过程都需要将数据存储在集群中,并且过程中会产生大量临时数据,就会导致数据急速膨胀,加大服务器存储的压力。