Apachekylin学习笔记

作者： | 来源：互联网 | 2023-07-29 19:35

一、Apachekylin的核心概念表（Table）：表定义在hive中，是数据立方体（Datacube&#x

一、Apache kylin的核心概念

表&＃xff08;Table &＃xff09;&＃xff1a;表定义在hive中&＃xff0c;是数据立方体&＃xff08;Data cube&＃xff09;的数据源&＃xff0c;在build cube 之前&＃xff0c;必须同步在 kylin中。
模型&＃xff08;model&＃xff09;:模型描述了一个星型模式的数据结构&＃xff0c;它定义了一个事实表&＃xff08;Fact Table&＃xff1a; Wiki:Fact_table&＃xff09;和多个查找表&＃xff08;Lookup Table&＃xff1a;Wiki:Lookup_table&＃xff09;的连接和过滤关系。
立方体&＃xff08;Cube&＃xff09;&＃xff1a;它定义了使用的模型、模型中的表的维度&＃xff08;dimension:Wiki:dimension&＃xff09;、度量&＃xff08;measure:Wiki:measure ,一般指聚合函数&＃xff0c;如&＃xff1a;sum、count、average等&＃xff09;、如何对段分区&＃xff08; segments partition&＃xff09;、合并段&＃xff08;segments auto-merge&＃xff09;等的规则。
立方体段&＃xff08;Cube Segment&＃xff09;&＃xff1a;它是立方体构建&＃xff08;build&＃xff09;后的数据载体&＃xff0c;一个 segment 映射hbase中的一张表&＃xff0c;立方体实例构建&＃xff08;build&＃xff09;后&＃xff0c;会产生一个新的segment&＃xff0c;一旦某个已经构建的立方体的原始数据发生变化&＃xff0c;只需刷新&＃xff08;fresh&＃xff09;变化的时间段所关联的segment即可。
作业&＃xff08;Job&＃xff09;&＃xff1a;对立方体实例发出构建&＃xff08;build&＃xff09;请求后&＃xff0c;会产生一个作业。该作业记录了立方体实例build时的每一步任务信息。作业的状态信息反映构建立方体实例的结果信息。如作业执行的状态信息为RUNNING 时&＃xff0c;表明立方体实例正在被构建&＃xff1b;若作业状态信息为FINISHED &＃xff0c;表明立方体实例构建成功&＃xff1b;若作业状态信息为ERROR &＃xff0c;表明立方体实例构建失败&＃xff01;作业的所有状态如下&＃xff1a;

NEW - This denotes one job has been just created.
PENDING - This denotes one job is paused by job scheduler and waiting for resources.
RUNNING - This denotes one job is running in progress.
FINISHED - This denotes one job is successfully finished.
ERROR - This denotes one job is aborted with errors.
DISCARDED - This denotes one job is cancelled by end users.

二、Apache kylin的工作机制

Apache kylin 能提供低延迟&＃xff08;sub-second latency&＃xff09;的秘诀就是预计算&＃xff0c;即针对一个星型拓扑结构的数据立方体&＃xff0c;预计算多个维度组合的度量&＃xff0c;然后将结果保存在hbase中&＃xff0c;对外暴露JDBC、ODBC、Rest API的查询接口&＃xff0c;即可实现实时查询。

数据立方体一般由Hive中的一个事实表,多个查找表组成。预计算的过程在kylin中就是 Cube 的build过程&＃xff0c;如下图&＃xff1a;

当前Apache kylin构建&＃xff08;build&＃xff09;数据立方体&＃xff0c;采用逐层算法&＃xff08;By Layer Cubing&＃xff09;。未来的发布中将采用快速立方体算法&＃xff08;Fast Cubing&＃xff09;。下面简单介绍一下逐层算法&＃xff1a;

一个完整的数据立方体&＃xff0c;由N-dimension立方体&＃xff0c;N-1 dimension立方体&＃xff0c;N-2维立方体&＃xff0c;0 dimension立方体这样的层关系组成&＃xff0c;除了N-dimension立方体&＃xff0c;基于原数据计算&＃xff0c;其他层的立方体可基于其父层的立方体计算。所以该算法的核心是N次顺序的MapReduce计算。

在MapReduce模型中&＃xff0c;key由维度的组合的构成&＃xff0c;value由度量的组合构成&＃xff0c;当一个Map读到一个key-value对时&＃xff0c;它会计算所有的子立方体&＃xff08;child cuboid&＃xff09;&＃xff0c;在每个子立方体中&＃xff0c;Map从key中移除一个维度&＃xff0c;将新key和value输出到reducer中。直到当所有层计算完毕&＃xff0c;才完成数据立方体的计算。过程如下图&＃xff1a;

在数据立方体计算完毕后&＃xff0c;有一个任务&＃xff08;Convert Cuboid Data to HFile&＃xff09;&＃xff0c;其职责是将reduce输出的运算结果&＃xff08;Cuboid Data&＃xff09;转化成Hbase中的存储载体&＃xff08;HFile&＃xff09;&＃xff0c;最终将HFile 加载到Hbase表中便于查询。其中表的rowkey由维度组合而成&＃xff0c;维度组合对应的度量值构成了column family&＃xff0c;为了查询减少存储空间&＃xff0c;会对RowKey和column family的值进行编码&＃xff0c;默认编码是Snappy。

整个数据立方体的构建流程如下&＃xff1a;

三、Apache kylin的架构及核心组件

Apache kylin 架构如下&＃xff1a;

核心组件&＃xff1a;

数据立方体构建引擎&＃xff08;Cube Build Engine&＃xff09;&＃xff1a;当前底层数据计算引擎支持MapReduce1、MapReduce2、Spark等。
Rest Server&＃xff1a;当前kylin采用的rest API、JDBC、ODBC接口提供web服务。
查询引擎&＃xff08;Query Engine&＃xff09;&＃xff1a;Rest Server接收查询请求后&＃xff0c;解析sql语句&＃xff0c;生成执行计划&＃xff0c;然后转发查询请求到Hbase中&＃xff0c;最后将结构返回给 Rest Server。

推荐阅读

sum
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
input
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23
split
如何构建更好的数据立方体系统(Cube)

看到了kylin关于cube的设计，难以抑制的觉得这部分设计得太巧妙了，确实比我们的产品要好上很多，不得不学习一下！ ... [详细]

蜡笔小新 2023-10-10 20:46:30
sum
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
schema
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
list
Windows环境下Apache频繁崩溃的解决方案

本文探讨了在Windows系统中运行Apache服务器时频繁出现崩溃的问题，并提供了多种可能的解决方案和建议。错误日志显示多个子进程因达到最大请求限制而退出。 ... [详细]

蜡笔小新 2024-11-20 13:07:27
client
net.spy.memcached.MemcachedClientIF.flush()方法的使用及代码示例

本文整理了Java中net.spy.memcached.MemcachedClientIF.flush()方法的一些代码示例，展示了MemcachedCli ... [详细]

蜡笔小新 2023-10-12 10:40:40
client
揭秘双11丝滑般剁手之路背后的网络监控技术

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（下称Hologres）实时计算Flink搭建的云原生实 ... [详细]

蜡笔小新 2023-10-09 19:54:08
split
org.apache.spark.api.java.JavaPairRDD.coalesce()方法的使用及代码示例

本文整理了Java中org.apache.spark.api.java.JavaPairRDD.coalesce()方法的一些代码示例，展示了JavaPai ... [详细]

蜡笔小新 2023-09-25 10:55:27
sum
Ryanair Expands Frankfurt Operations, Challenges Lufthansa's Dominance

Irish budget airline Ryanair announced plans to significantly increase its route network from Frankfurt Airport, marking a direct challenge to Lufthansa, Germany's leading carrier. ... [详细]

蜡笔小新 2024-11-21 13:09:01
object
org.apache.calcite.linq4j.tree.BlockBuilder.add()方法的使用及代码示例

本文整理了Java中org.apache.calcite.linq4j.tree.BlockBuilder.add()方法的一些代码示例，展示了BlockB ... [详细]

蜡笔小新 2023-10-10 18:41:23
merge
极客星球｜Clickhouse在数据智能公司的应用与实践

MobTech在2020年开始尝试使用Clickhouse，并且具有一定的数据规模，目前线上Clickhouse集群数据 ... [详细]

蜡笔小新 2023-10-10 12:25:13
config
java ee 程序_第一个 JavaEE 应用程序JavaWeb 入门开发教程

第一个JavaEE应用程序JavaEE是JavaWeb开发当中事实上的标准，诸多框架也都是建立在JavaEE的API基础之上的。为了从头理解JavaWeb开发 ... [详细]

蜡笔小新 2023-10-10 11:15:20
php
Kylin——CDH

CDH:Cloudera‘sDistribution,includingApacheHadoop.Hadoop众多分支中的一种，可直接用于成产环境CM：Cloudera ... [详细]

蜡笔小新 2023-10-09 20:42:36
php
kylin怎样安装使用

这篇文章给大家分享的是有关kylin怎样安装使用的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。环境我选的kylin版 ... [详细]

蜡笔小新 2023-09-25 18:01:32

Tags | 热门标签

RankList | 热门文章