==Hive的主要缺点&对比impala/kylin

作者：晶晶9930_195 | 来源：互联网 | 2023-06-27 15:21

一套数据，多种引擎（impalaHivekylin）–大数据和云计算技术（欢迎关注同名微信公众号）–ITeye技术网站http:jiezhu2007.iteye.comblog21

一套数据，多种引擎（impala/Hive/kylin） &＃8211; 大数据和云计算技术（欢迎关注同名微信公众号） &＃8211; ITeye技术网站
http://jiezhu2007.iteye.com/blog/2153589

SQL on hadoop目前最成熟的应该是Hive，发展早，使用多。Hive是目前互联网企业中处理大数据、构建数据仓库最常用的解决方案，甚至在很多公司部署了Hadoop集群不是为了跑原生MapReduce程序，而全用来跑Hive SQL的查询任务。目前Hive的主要缺点：
1，data shuffle时网络瓶颈，Reduce要等Map结束才能开始，不能高效利用网络带宽
2，一般一个SQL都会解析成多个MR job，Hadoop每次Job输出都直接写HDFS，性能差
3，每次执行Job都要启动Task，花费很多时间，无法做到实时
4，由于把SQL转化成MapReduce job时，map,shuffle和reduce所负责执行的SQL功能不同。那么就有Map->MapReduce或者MapReduce->Reduce这样的需求。这样可以降低写HDFS的次数，从而提高性能。很明显，由于架构上的天然涉及，Hive只适合批处理。

//
Cloudera的impala是另外一个典型的代表，Impala可以看成是Google Dremel架构和MPP (Massively Parallel Processing)结构的混合体，根据Cloudera公司的宣传，也是目前业界开源的最快的引擎，相关测试结果可以参考http://blog.cloudera.com/blog/2014/05/new-sql-choices-in-the-apache-hadoop-ecosystem-why-impala-continues-to-lead/。

当能impala也不是包打天下，对批量数据的处理如数据挖掘分析，还是不如HIVE稳定可靠。而impala天然是继承Hive的元数据，所以完全可以综合两者的优点，同一套数据，多个引擎。Impala应对秒级的交互查询，Hive应对批量数据的分析。

//
如果需要更高的OLAP分析速度，可以考虑kylin，最近有ebay开源的OLAP引擎。核心思路，数据提取建模，通过HIVE将数据转换成cube，存入HBASE中方便查询。这个就是要求提前建立cube，智能应对特定的模型。

//
三、需要做的工作：
要做到HIVE/impala共一套数据，其实也有很多工作。目前impala主要在Parquet格式下性能高，HIVE主要使用的是ORCFile。两种存储格式都是列式存储，各有优势。Parquet主要是支持嵌套式数据，ORCFile的每个strip中有一段index data。Index data包含每列的最大和最小值以及每列所在的行。行索引里面提供了偏移量，它可以跳到正确的压缩块位置。具有相对频繁的行索引，使得在stripe中快速读取的过程中可以跳过很多行，尽管这个stripe的大小很大。所以需要两个引擎各自兼容对ORCFile/Parquet的支持，或者融合两种存储格式的优点，让HIVE/impala支持。

推荐阅读

架构
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
架构
揭秘双11丝滑般剁手之路背后的网络监控技术

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（下称Hologres）实时计算Flink搭建的云原生实 ... [详细]

蜡笔小新 2023-10-09 19:54:08
python
grouplens上的movielens数据集_Python + Apache Kylin 让数据分析更加简单！

现如今，大数据、数据科学和机器学习不仅是技术圈的热门话题，也是当今社会的重要组成。数据就在每个人身边，同时每天正以惊人的速度快速增长&#x ... [详细]

蜡笔小新 2023-09-18 15:51:27
join
面经||【字节跳动】Java岗社招面经

一面：1、一些Java基础知识。2、倒排索引。3、讲讲redis里面的哈希表？4、happen-before的规则？5、volatile修饰 ... [详细]

蜡笔小新 2023-09-24 13:36:52
int
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
int
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
version
Android日历提醒软件开源项目分享及使用教程

本文介绍了一款名为Android日历提醒软件的开源项目，作者分享了该项目的代码和使用教程，并提供了GitHub项目地址。文章详细介绍了该软件的主界面风格、日程信息的分类查看功能，以及添加日程提醒和查看详情的界面。同时，作者还提醒了读者在使用过程中可能遇到的Android6.0权限问题，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-10 19:01:03
int
SmartMining

应用场景当遇到数据分类，聚类，预测等场景问题，普通的SQL方法无法解决，需要借助算法这件武器，比如聚类算法，分类算法，预测算法等等，但是手动去研究一个算法比较吃力，有没有那种工具， ... [详细]

蜡笔小新 2023-10-17 15:45:01
int
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
python
一份来自清华的数据分析笔记，请查收！

之前发过很多数据分析的文章，收到不少好评，但也有一些困惑：入门数据分析该学哪些知识点？该看哪些书？是从Pyth ... [详细]

蜡笔小新 2023-10-16 12:27:43
python
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
python
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
python
Zookeeper 总结与面试题汇总

Zookeeper总结与面试题汇总,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-15 12:51:19
int
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
split
org.apache.spark.api.java.JavaPairRDD.coalesce()方法的使用及代码示例

本文整理了Java中org.apache.spark.api.java.JavaPairRDD.coalesce()方法的一些代码示例，展示了JavaPai ... [详细]

蜡笔小新 2023-09-25 10:55:27

晶晶9930_195

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章