热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

可扩展超快OLAP引擎Kylin怎么用

可扩展超快OLAP引擎Kylin怎么用,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。K

可扩展超快OLAP引擎Kylin怎么用,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。

Kylin沿用了原来的数据仓库技术中的Cube概念,把无限数据按有限的维度进行“预处理”,然后将结果(Cube)加载到Hbase里,供用户查询使用。

Kylin是通过空间换时间的方式,实现在亚秒级别延迟的情况下,对Hadoop上的大规模数据集进行交互式查询,Kylin通过预计算,把计算结果集保存到Hbase中,原有的基于行的关系模型被转化为基于键值对的列式存储,通过维度组合作为HBase的RowKey,在查询访问时不再需要昂贵的表扫描,这为高速高并发分析带来了可能;Kylin提供了标准SQL查询接口,支撑大多数的SQL函数,同时也支持ODBC/JDBC的方式和主流的BI产品无缝集成。

Kylin的工作原理

1、指定数据模型,定义维度和度量

2、预计算Cube,计算所有Cuboid并保存为物化视图

3、执行查询时,读取Cuboid,运算,产生查询结果

可扩展超快OLAP引擎Kylin怎么用

Kylin的的主要特点

1、标准SQL接口

2、支持超大数据集

3、亚秒级响应

4、可伸缩性和高吞吐率

5、BI及可视化工具集成

几个核心概念

数据仓库:(Data Warehouse):大量历史性资料数据。

OLAP:联机分析处理,以多维度的方式分析数据,而且能够弹性的提供上卷、下钻和透视分析等操作。区别于联机交易处理(OLTP):更侧重于日常事务处理,增删改查。

BI:商业智能

维度与度量:维度是指审视数据的角度,通常是数据记录的一个属性,eg:时间、地点等,度量是基于数据所计算出来的考量值。eg:销售额,用户数等

事实表和维度表:事实表存储有事实记录的表,eg:系统日志、销售记录等,事实表不断动态增长。维度表保存了维度的属性值,eg:日期表、地点表等

Cube、Cuboid和Cube Segment

Cube:数据立方体,常用于数据分析和索引的技术,他可以对原始数据建立多维度索引,通过Cube对数据进行数据进行分析,大大加快数据的查询效率。

Cuboid:在Kylin中特制某一中维度组合下所计算的数据

Cube Segment:是指针对源数据中的某一片段,计算出来的Cube数据。通常数据仓库中的数据会随着时间的增长而增长,而Cube Segment也是按时间顺序来构建的。

Apache Kylin的主要使用过程:

1、数据准备:符合星型模型、维度表设计(Kylin将维度表加载到内存中处理,所有维度表不能太大)、Hive表分区 。

2、设计Cube:导入Hive表定义、创建数据模型

3、创建Cube:Kylin是以Key-Value的方式将Cube存储到Hbase中,Hbase的Key也就是RowKey是由各个维度的值拼接而成的。

4、构建Cube:增量构建和全量构建

5、历史数据刷新、合并(Segment)

6、查询Cube,标准的SQL的select语句。

支持构建方式:

增量构建:分全量和增量

流式构建:实现实时数据更新,对接Kafka实现,目前存在丢失数据的风险

支持对接方式:

1、WEB GUI --- Insight页面

2、Rest API

3、ODBC/JDBC

4、通过Tableau(BI)访问Kylin。

看完上述内容,你们掌握可扩展超快OLAP引擎Kylin怎么用的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注编程笔记行业资讯频道,感谢各位的阅读!


推荐阅读
  • 【转】腾讯分析系统架构解析
    TA(TencentAnalytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • MFC程序连接MySQL成功实现查询功能,但无法实现修改操作——详解查询语句在MySQL中的使用过程
    selectxxx,xxx,xxxfromxxxwherexxxxxx,xxxxxx程序的日常开发中,我们经常会写到各种各样的简单的,复杂的查询sql语 ... [详细]
  • 语法:CREATE[索引类型]INDEX索引名称ON表名(列名)WITHFILLFACTOR填充因子值0~100GOUSE库名GOIFEXISTS(SELECT*FR ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 如何在mysqlshell命令中执行sql命令行本文介绍MySQL8.0shell子模块Util的两个导入特性importTableimport_table(JS和python版本 ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • Hive的数据表创建数据文件inner_table.dat创建表hive>createtableinner_table(keystri ... [详细]
  • mysql主机地址是什么????下面的该怎么添??mysql主机地址是什么????下面的该怎么添??答:SQLyogEnterprise中,mysql的主机地址如果你是本机,就填写 ... [详细]
  • intouch sqlserver_Intouch与 SQL的连接方法
    摘要:本文介绍了Intouch与SQL连接的具体的操作方法,供学习参考。有两种方式,第一种方式ODBC(与MicorosoftAccess ... [详细]
author-avatar
UP向日葵氵于磊Z
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有