一起探讨一下Kylin的工作原理

作者：学银先生_512 | 来源：互联网 | 2023-06-27 12:40

大家好,欢迎来到本篇博客,博主是一名刚入大数据行业的小白,利用空闲的时间来分享自己所学的知识,帮助和博主一样刚处于起步阶段的同学,水平不高,若有什么错误和纰漏之处恳请大佬不吝赐教,

大家好,欢迎来到本篇博客,博主是一名刚入大数据行业的小白,利用空闲的时间来分享自己所学的知识,帮助和博主一样刚处于起步阶段的同学,水平不高,若有什么错误和纰漏之处恳请大佬不吝赐教,目前个人博客只有CSDN:https://zhenyu.blog.csdn.net/,感谢大家的支持,谢谢
送给大家一句话:今日事,今日毕

本篇博客主要讲解:Kylin的工作原理

Kylin

Kylin的工作原理
维度和度量
Cube和Cuboid
工作原理
技术架构
小结

Kylin的工作原理

Apache Kylin的工作原理本质上是 MOLAP(多维立方体分析)

维度和度量

维度就是观察数据的角度&＃xff0c;例如&＃xff1a;

电商的销售数据&＃xff0c;可以从时间的维度来观察&＃xff0c;也可以细化从时间和地区的维度来观察
统计时&＃xff0c;可以把维度值相同的记录聚合在一起&＃xff0c;然后应用聚合函数做累加、平均、去重计数等聚合计算

度量就是被聚合的统计值&＃xff0c;也是聚合运算的结果

时间&＃xff08;维度&＃xff09;	销售额&＃xff08;度量&＃xff09;
2019 1Q	1.7M
2019 2Q	2.1M
2019 3Q	1.6M
2019 4Q	1.8M

时间&＃xff08;维度&＃xff09;	地区&＃xff08;维度&＃xff09;	销售额&＃xff08;度量&＃xff09;
2019 1Q	中国	1.0M
2019 1Q	北美	0.7M
2019 2Q	中国	1.5M
2019 2Q	北美	0.6M
2019 3Q	中国	0.9M
2019 3Q	北美	0.7M
2019 4Q	中国	0.9M
2019 4Q	北美	0.9M

Cube和Cuboid

一个数据表或数据模型上的字段就它们要么是维度&＃xff0c;要么是度量&＃xff08;可以被聚合&＃xff09;
给定一个数据模型&＃xff0c;可以对其上的所有维度进行组合。对于N个维度来说&＃xff0c;组合的所有可能性共有2 的N 次方种
对于每一种维度的组合&＃xff0c;将度量做聚合运算&＃xff0c;然后将运算的结果保存为一个物化视图&＃xff0c;称为Cuboid&＃xff08;立方形&＃xff09;
所有维度组合的Cuboid作为一个整体&＃xff0c;被称为Cube&＃xff08;立方体&＃xff09;。一个Cube就是许多按维度聚合的物化视图的集合。

说明	维度1地区	维度2时间	维度3	维度4
取值	0或1	0或1	0或1	0或1

在这里插入图片描述

数据立方体
- Cube 是所有 dimession 的组合
- 每一种 dimession 的组合称之为cuboid&＃xff08;立方形&＃xff09;。某一有 n 个 dimession 的 cube 会有 2^n个 cuboid
- 数据立方体只是多维模型的一个形象的说法

在这里插入图片描述

为什么叫立方体&＃xff1f;
- 立方体本身只有三维&＃xff0c;但多维模型不仅限于三维模型&＃xff0c;可以组合更多的维度
- 为了与传统关系型数据库的二维表区别开来&＃xff0c;才有了数据立方体的叫法

工作原理

Apache Kylin的工作原理是对数据模型做Cube预计算&＃xff0c;并利用计算的结果加速查询。具体工作过程如下:

指定数据模型&＃xff0c;定义维度和度量
预计算Cube&＃xff0c;计算所有Cuboid并保存为物化视图&＃xff08;存储到hbase中&＃xff09;
执行查询时&＃xff0c;读取Cuboid&＃xff0c;运算&＃xff0c;产生查询结果

高效OLAP分析&＃xff1a;

Kylin的查询过程不会扫描原始记录&＃xff0c;而是通过预计算预先完成表的关联、聚合等复杂运算
利用预计算的结果来执行查询&＃xff0c;相比非预计算的查询技术&＃xff0c;其速度一般要快一到两个数量级&＃xff0c;在超大的数据集上优势更明显
数据集达到千亿乃至万亿级别时&＃xff0c;Kylin的速度可以超越其他非预计算技术1000倍以上

技术架构

Apache Kylin系统可以分为在线查询和离线构建两部分。
在这里插入图片描述

在线查询模式主要处于上半部分&＃xff0c;离线构建处于下半部分。以下为Kylin技术架构的具体内容&＃xff1a;

数据源主要是Hadoop Hive&＃xff0c;数据以关系表的形式输入&＃xff0c;且必须符合星形模型&＃xff0c;保存着待分析的用户数据。根据元数据的定义&＃xff0c;构建引擎从数据源抽取数据&＃xff0c;并构建Cube
Kylin可以使用MapReduce或者Spark作为构建引擎。构建后的Cube保存在右侧的存储引擎中&＃xff0c;一般选用HBase作为存储
完成了离线构建后&＃xff0c;用户可以从上方查询系统发送SQL进行查询分析
Kylin提供了各种Rest API、JDBC/ODBC接口。无论从哪个接口进入&＃xff0c;SQL最终都会来到Rest服务层&＃xff0c;再转交给查询引擎进行处理
SQL语句是基于数据源的关系模型书写的&＃xff0c;而不是Cube
- Kylin在设计时&＃xff0c;刻意对查询用户屏蔽了Cube的概念
- 分析师只需要理解简单的关系模型就可以使用Kylin&＃xff0c;没有额外的学习门槛&＃xff0c;传统的SQL应用也很容易迁移
- 查询引擎解析SQL&＃xff0c;生成基于关系表的逻辑执行计划&＃xff0c;然后将其转译为基于Cube的物理执行计划&＃xff0c;最后查询预计算生成的Cube并产生结果&＃xff0c;整个过程不会访问原始数据源

小结

--------
感谢大家的支持,若有什么不正确的地方还请大家能及时的反馈,记得点赞收藏支持一下!

推荐阅读

io
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
io
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
sum
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
schema
Activiti7流程定义开发笔记

本文介绍了Activiti7流程定义的开发笔记，包括流程定义的概念、使用activiti-explorer和activiti-eclipse-designer进行建模的方式，以及生成流程图的方法。还介绍了流程定义部署的概念和步骤，包括将bpmn和png文件添加部署到activiti数据库中的方法，以及使用ZIP包进行部署的方式。同时还提到了activiti.cfg.xml文件的作用。 ... [详细]

蜡笔小新 2023-12-10 19:22:56
go
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
io
org.apache.hadoop.hbase.client.Increment.getDurability()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.hbase.client.Increment.getDurability()方法的一些代码示例，展示了 ... [详细]

蜡笔小新 2023-10-17 12:30:05
io
Hbase Region Server和Hbase Master启动报错 Direct buffer memory

2018-02-1420:07:13,610ERROR[main]regionserver.HRegionServerCommandLine:Regionserverexiting ... [详细]

蜡笔小新 2023-10-16 20:08:57
schema
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
io
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
io
Spark：【error】远程调试 root:supergroup:drwxrxrx

Exceptioninthreadmainorg.apache.hadoop.security.AccessControlException:Permissiondenied: ... [详细]

蜡笔小新 2023-10-16 14:00:28
go
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
io
Hbase1.2.0cdh5.16.2使用PREFIX_TREE编码导致集群压缩队列异常

Hbase1.X版本中PREFIX_TREE作为BlockEncoding存在bug，会造成RegionServer节点compactionqueue持续升高，甚至影响fl ... [详细]

蜡笔小新 2023-10-15 14:00:19
io
YARN回顾（七）——Spark在YARN上的运行模式

SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下，Spark驱动器（driver）在YARNApp ... [详细]

蜡笔小新 2023-10-15 12:39:15
text
ReadDataFromCheckpoint

packagecom.bjsxt.spark.others;importorg.apache.spark.SparkConf;importorg.apache.spark.api. ... [详细]

蜡笔小新 2023-10-15 12:29:43

学银先生_512

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章