1定义
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,默认情况下可以将sql语句转换为MapReduce任务进行运行
HBase是Hadoop的数据库,一个分布式、可扩展、大数据的存储
2区别
HiveSql默认情况下会转换成MapReduce进行计算,所以比较慢,只能做离线数据分析,不能做实时查询
HBase是NoSql数据库,是物理表,不是逻辑表,虽然数据是存储在hdfs,但是读写速度非常快,适合做大数据量的即时查询
3联系
这两种大数据框架在整个ETL过程中所处的位置及承载的作用是不一样的,一般来说,Hive清洗处理后的数据有可能会被写入HBase,供需求方实时查询,所以很多时候,这两种框架是需要同时使用的,发挥各自的价值。如下图:
4应用场景
Hive一般是做大数据量的离线数据分析,比如日志数据分析,但是不能做实时查询,因为需要很长时间才能返回结果。
HBase适合用来对数据量很大的明细数据进行实时查询,如订单数据,用户画像数据
2020大数据面试题真题总结(附答案)
数据建模知多少?
如何写好一篇数据部门规范文档
如何优化整个数仓的执行时长(比如7点所有任务跑完,如何优化到5点)
从0-1建设数仓遇到什么问题?怎么解决的?
多值维度及交叉维度最佳解决方案
深入探究order by,sort by,distribute by,cluster by
Hive调优,数据工程师成神之路
数据质量那点事
简述元数据管理
你真的了解全量表,增量表及拉链表吗?
缓慢变化维(SCD)常见解决方案
全方位解读星型模型,雪花模型及星座模型
Sqoop or Datax
left join(on&where)
ID-Mapping
你们公司还在用SparkOnYan吗?
大厂高频面试题-连续登录问题
朋友面试数据研发岗遇到的面试题
数据仓库分层架构
简单聊一聊大数据学习之路
朋友面试数据专家岗遇到的面试题
HADOOP快速入门
数仓工程师的利器-HIVE详解