hive面试题总结（大数据面试）

作者：佩菱淑华7 | 来源：互联网 | 2023-08-22 10:24

Hive概述Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成为一张数据库表，并提供类SQL的查询功能。可以将sql语句转化为

Hive概述

Hive是基于Hadoop的一个数据仓库工具&＃xff0c;可以将结构化的数据文件映射成为一张数据库表&＃xff0c;并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。Hive提供了一系列的工具&＃xff0c;可以用来进行数据提取转化加载&＃xff08;ETL&＃xff09;&＃xff0c;这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

1、Hive 自定义函数函数

UDF 一进一出处理原文件内容某些字段包含 [] “”
UDAF 多进一出 sum() avg() max() min()
UDTF 一进多出 ip -> 国家省市

2、Hive4种排序

order by //可以指定desc 降序 asc 升序 order
by会对输入做全局排序&＃xff0c;因此只有一个Reducer(多个Reducer无法保证全局有序)&＃xff0c;然而只有一个Reducer&＃xff0c;会导致当输入规模较大时&＃xff0c;消耗较长的计算时间。
sort by 【对分区内的数据进行排序】 sort by不是全局排序&＃xff0c;其在数据进入reducer前完成排序&＃xff0c;因此&＃xff0c;如果用sort by进行排序&＃xff0c;并且设置mapred.reduce.tasks>1&＃xff0c;则sort by只会保证每个reducer的输出有序&＃xff0c;并不保证全局有序。sort by不同于order by&＃xff0c;它不受Hive.mapred.mode属性的影响&＃xff0c;sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks&＃61;n来指定)&＃xff0c;对输出的数据再执行归并排序&＃xff0c;即可得到全部结果。
distribute by 【对map输出进行分区】
distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列&＃xff0c;对应reduce的个数进行分发&＃xff0c;默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下&＃xff0c;你需要控制某个特定行应该到哪个reducer&＃xff0c;这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此&＃xff0c;distribute by经常和sort by配合使用。
cluster by
cluster by除了具有distribute by的功能外还兼具sort by的功能。当distribute by和sort by 是同一个字段的时候可以使用cluster by替代。但是排序只能是倒叙排序&＃xff0c;不能指定排序规则为ASC或者DESC。

3、三种分组的区别

row_number&＃xff1a;不管col2字段的值是否相等&＃xff0c;行号一直递增&＃xff0c;比如&＃xff1a;有两条记录的值相等&＃xff0c;但一个是第一&＃xff0c;一个是第二
rank&＃xff1a;上下两条记录的col2相等时&＃xff0c;记录的行号是一样的&＃xff0c;但下一个col2值的行号递增N&＃xff08;N是重复的次数&＃xff09;&＃xff0c;比如&＃xff1a;有两条并列第一&＃xff0c;下一个是第三&＃xff0c;没有第二
dense_rank&＃xff1a;上下两条记录的col2相等时&＃xff0c;下一个col2值的行号递增1&＃xff0c;比如&＃xff1a;有两条并列第一&＃xff0c;下一个是第二

4、Hive优化

1.fetch task任务不走MapReduce&＃xff0c;可以在hive配置文件中设置最大化和最小化fetch task任务&＃xff1b;通常在使用hiveserver2时调整为more&＃xff1b;

2.strict mode&＃xff1a;严格模式设置&＃xff0c;严格模式下将会限制一些查询操作
a&＃xff1a;当表为分区表时&＃xff0c;where字句后没有分区字段和限制时&＃xff0c;不允许执行。
b&＃xff1a;当使用order by语句时&＃xff0c;必须使用limit字段&＃xff0c;因为order by 只会产生一个reduce任务。
c&＃xff1a;限制笛卡尔积的查询。sql语句不加where不会执行
3.优化sql语句&＃xff0c;如先过滤再join&＃xff0c;先分组再做distinct;
4.MapReduce过程的map、shuffle、reduce端的snappy压缩
需要先替换hadoop的native本地包开启压缩
在mapred-site.xml文件设置启用压缩及压缩编码
在执行SQL执行时设置启用压缩和指定压缩编码

set mapreduce.output.fileoutputformat.compress&＃61;true; set mapreduce.output.fileoutputformat.compress.codec&＃61;org apache.hadoop.io.compress.SnappyCodec;

5.大表拆分成子表&＃xff0c;提取中间结果集&＃xff0c;减少每次加载数据
多维度分析&＃xff0c;多个分析模块
每个分析模块涉及字段不一样&＃xff0c;而且并不是表的全部字段

6.分区表及外部表
设计二级分区表&＃xff08;一级字段为天&＃xff0c;二级字段设置小时&＃xff09;
创建的的是外部表&＃xff0c;创建表时直接指定数据所在目录即可&＃xff0c;不用再用load加载数据

7.设置map和reduce个数&＃xff1a;默认情况下一个块对应一个map任务&＃xff0c;map数据我们一般不去调整&＃xff0c;reduce个数根据reduce处理的数据量大小进行适当调整体现“分而治之”的思想

8.JVM重用&＃xff1a;一个job可能有多个map reduce任务&＃xff0c;每个任务会开启一个JVM虚拟机&＃xff0c;默认情况下一个任务对应一个JVM&＃xff0c;任务运行完JVM即销毁&＃xff0c;我们可以设置JVM重用参数&＃xff0c;一般不超过5个&＃xff0c;这样一个JVM内可以连续运行多个任务
JVM重用是Hadoop调优参数的内容&＃xff0c;对Hive的性能具有非常大的影响&＃xff0c;特别是对于很难避免小文件的场景或者task特别多的场景&＃xff0c;这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduce任务的&＃xff0c;这是jvm的启动过程可能会造成相当大的开销&＃xff0c;尤其是执行的job包含有成千上万个task任务的情况。
JVM重用可以使得JVM实例在同一个JOB中重新使用N次&＃xff0c;N的值可以在Hadoop的mapre-site.xml文件中进行设置&＃xff08;建议参考5~10&＃xff09;

9.推测执行&＃xff1a;例如一个Job应用有10个MapReduce任务&＃xff08;map 及reduce&＃xff09;&＃xff0c;其中9个任务已经完成&＃xff0c;那么application Master会在另外启动一个相同的任务来运行未完成的那个&＃xff0c;最后哪个先运行完成就把另一个kill掉
启用speculative最大的好处是&＃xff0c;一个map执行的时候&＃xff0c;系统会在其他空闲的服务器上启动相同的map来同时运行&＃xff0c;哪个运行的快就使用哪个的结果&＃xff0c;另一个运行慢的在有了结果之后就会被kill。

5、数据倾斜

原因

key分布不均匀
业务数据本身的特性
SQL语句造成数据倾斜

对于普通的join操作&＃xff0c;会在map端根据key的hash值&＃xff0c;shuffle到某一个reduce上去&＃xff0c;在reduce端做join连接操作&＃xff0c;内存中缓存join左边的表&＃xff0c;遍历右边的表&＃xff0c;依次做join操作。所以在做join操作时候&＃xff0c;将数据量多的表放在join的右边。

当数据量比较大&＃xff0c;并且key分布不均匀&＃xff0c;大量的key都shuffle到一个reduce上了&＃xff0c;就出现了数据的倾斜。

常见的数据倾斜出现在group by和join…on…语句中。

join&＃xff08;数据倾斜&＃xff09;
在进行两个表join的过程中&＃xff0c;由于hive都是从左向右执行&＃xff0c;要注意讲小表在前&＃xff0c;大表在后&＃xff08;小表会先进行缓存&＃xff09;。

map/reduce程序执行时&＃xff0c;reduce节点大部分执行完毕&＃xff0c;但是有一个或者几个reduce节点运行很慢&＃xff0c;导致整个程序的处理时间很长&＃xff0c;这是因为某一个key的条数比其他key多很多&＃xff08;有时是百倍或者千倍之多&＃xff09;&＃xff0c;这条key所在的reduce节点所处理的数据量比其他节点就大很多&＃xff0c;从而导致某几个节点迟迟运行不完&＃xff0c;此称之为数据倾斜。hive在跑数据时经常会出现数据倾斜的情况&＃xff0c;使的作业经常reduce完成在99%后一直卡住&＃xff0c;最后的&＃xff11;%花了几个小时都没跑完&＃xff0c;这种情况就很可能是数据倾斜的原因&＃xff0c;

hive.groupby.skewindata&＃61;true;
控制生成两个MR Job,第一个MR Job Map的输出结果随机分配到reduce中减少某些key值条数过多某些key条数过小造成的数据倾斜问题。
在第一个 MapReduce 中&＃xff0c;map 的输出结果集合会随机分布到 reduce 中&＃xff0c; 每个reduce 做部分聚合操作&＃xff0c;并输出结果。这样处理的结果是&＃xff0c;相同的 Group By Key 有可能分发到不同的reduce中&＃xff0c;从而达到负载均衡的目的&＃xff1b;
第二个 MapReduce 任务再根据预处理的数据结果按照 Group By Key 分布到 reduce 中&＃xff08;这个过程可以保证相同的 Group By Key 分布到同一个 reduce 中&＃xff09;&＃xff0c;最后完成最终的聚合操作。

hive.optimize.skewjoin.compiletime&＃61;true; 如果是join过程出现倾斜应该设置为true
此时会将join语句转化为两个mapreduce任务&＃xff0c;第一个会给jion字段加随机散列
set hive.skewjoin.key&＃61;100000; 这个是join的键对应的记录条数超过这个值则会进行优化。

6、Hive中追加导入数据的4种方式是什么&＃xff1f;请写出简要语法

从本地导入&＃xff1a; load data local inpath ‘/home/1.txt’ (overwrite)into table student;
从Hdfs导入&＃xff1a; load data inpath ‘/user/hive/warehouse/1.txt’ (overwrite)into table student;
查询导入&＃xff1a; create table student1 as select * from student;(也可以具体查询某项数据)
查询结果导入&＃xff1a;insert &＃xff08;overwrite&＃xff09;into table staff select * from track_log;

7、Hive导出数据有几种方式&＃xff1f;如何导出数据

1、用insert overwrite导出方式

导出到本地&＃xff1a; insert overwrite local directory ‘/home/robot/1/2’ rom format
delimited fields terminated by ‘\t’ select * from staff;(递归创建目录)
导出到HDFS insert overwrite directory ‘/user/hive/1/2’ rom format
delimited fields terminated by ‘\t’ select * from staff;

2、Bash shell覆盖追加导出

例如&＃xff1a;$ bin/hive -e “select * from staff;” > /home/z/backup.log

3、Sqoop把hive数据导出到外部

8、合并小文件

hive.merg.mapfiles&＃61;true&＃xff1a;合并map输出
hive.merge.mapredfiles&＃61;false&＃xff1a;合并reduce输出
hive.merge.size.per.task&＃61;25610001000&＃xff1a;合并文件的大小
hive.mergejob.maponly&＃61;true&＃xff1a;如果支持CombineHiveInputFormat则生成只有Map的任务执行merge
hive.merge.smallfiles.avgsize&＃61;16000000&＃xff1a;文件的平均大小小于该值时&＃xff0c;会启动一个MR任务执行merge。

9、自定义map/reduce数目

减少map数目&＃xff1a;
　　set mapred.max.split.size
　　set mapred.min.split.size
　　set mapred.min.split.size.per.node
　　set mapred.min.split.size.per.rack
　　set hive.input.format&＃61;org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
增加map数目&＃xff1a;
当input的文件都很大&＃xff0c;任务逻辑复杂&＃xff0c;map执行非常慢的时候&＃xff0c;可以考虑增加Map数&＃xff0c;来使得每个map处理的数据量减少&＃xff0c;从而提高任务的执行效率。
假设有这样一个任务&＃xff1a;
select data_desc, count(1), count(distinct id),sum(case when …),sum(case when …),sum(…) from a group by data_desc
如果表a只有一个文件&＃xff0c;大小为120M&＃xff0c;但包含几千万的记录&＃xff0c;如果用1个map去完成这个任务&＃xff0c;肯定是比较耗时的&＃xff0c;这种情况下&＃xff0c;我们要考虑将这一个文件合理的拆分成多个&＃xff0c;这样就可以用多个map任务去完成。
　　set mapred.reduce.tasks&＃61;10;
　　create table a_1 as select * from a distribute by rand(123);
这样会将a表的记录&＃xff0c;随机的分散到包含10个文件的a_1表中&＃xff0c;再用a_1代替上面sql中的a表&＃xff0c;则会用10个map任务去完成。每个map任务处理大于12M&＃xff08;几百万记录&＃xff09;的数据&＃xff0c;效率肯定会好很多。
reduce数目设置&＃xff1a;
参数1&＃xff1a;hive.exec.reducers.bytes.per.reducer&＃61;1G&＃xff1a;每个reduce任务处理的数据量
参数2&＃xff1a;hive.exec.reducers.max&＃61;999(0.95TaskTracker数)&＃xff1a;每个任务最大的reduce数目
reducer数&＃61;min(参数2,总输入数据量/参数1)
set mapred.reduce.tasks&＃xff1a;每个任务默认的reduce数目。典型为0.99reduce槽数&＃xff0c;hive将其设置为-1&＃xff0c;自动确定reduce数目。

10、使用索引&＃xff1a;

hive.optimize.index.filter&＃xff1a;自动使用索引
hive.optimize.index.groupby&＃xff1a;使用聚合索引优化GROUP BY操作

11、分区和分桶

分区

是指按照数据表的某列或某些列分为多个区&＃xff0c;区从形式上可以理解为文件夹&＃xff0c;比如我们要收集某个大型网站的日志数据&＃xff0c;一个网站每天的日志数据存在同一张表上&＃xff0c;由于每天会生成大量的日志&＃xff0c;导致数据表的内容巨大&＃xff0c;在查询时进行全表扫描耗费的资源非常多。
那其实这个情况下&＃xff0c;我们可以按照日期对数据表进行分区&＃xff0c;不同日期的数据存放在不同的分区&＃xff0c;在查询时只要指定分区字段的值就可以直接从该分区查找

分桶

分桶是相对分区进行更细粒度的划分。
分桶将整个数据内容安装某列属性值得hash值进行区分&＃xff0c;如要按照name属性分为3个桶&＃xff0c;就是对name属性值的hash值对3取摸&＃xff0c;按照取模结果对数据分桶。
如取模结果为0的数据记录存放到一个文件&＃xff0c;取模为1的数据存放到一个文件&＃xff0c;取模为2的数据存放到一个文件

12、Hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别&＃xff1f;

TextFile&＃xff1a;默认格式&＃xff0c;数据不做压缩&＃xff0c;磁盘开销大&＃xff0c;数据解析开销大。

SequenceFile&＃xff1a;Hadoop API提供的一种二进制文件支持&＃xff0c;使用方便&＃xff0c;可分割&＃xff0c;可压缩&＃xff0c;支持三种压缩&＃xff0c;NONE&＃xff0c;RECORD&＃xff0c;BLOCK。

RCFILE&＃xff1a;是一种行列存储相结合的方式。首先&＃xff0c;将数据按行分块&＃xff0c;保证同一个record在同一个块上&＃xff0c;避免读一个记录读取多个block。其次&＃xff0c;块数据列式存储&＃xff0c;有利于数据压缩和快速的列存取。数据加载的时候性能消耗大&＃xff0c;但具有较好的压缩比和查询响应。
企业中hive常用的数据存储格式是ORC格式&＃xff0c;数据压缩格式是snappy

资料来源

推荐阅读

bit
探索高效算法：寻找所有和为N的组合方案

本文探讨了一种高效的算法，用于生成所有数字（0-9）的六位组合，允许重复使用数字，并确保这些组合的和等于给定的整数N。该算法通过优化搜索策略，显著提高了计算效率，适用于大规模数据处理和组合优化问题。 ... [详细]

蜡笔小新 2024-11-08 09:58:47
bit
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
scala
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
scala
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
ip
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
select
使用JDBC实现ActiveMQ消息持久化机制深入解析

本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中，如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时，数据库会自动生成三个关键表：`activemq_msgs`、`activemq_lock`和`activemq_ACKS`，分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性，还增强了系统的可扩展性和容错能力。 ... [详细]

蜡笔小新 2024-11-10 14:41:02
select
深入解析 SQL 数据库查询技术

本文深入探讨了SQL数据库查询技术，重点讲解了单表查询的各种方法。首先，介绍了如何从表中选择特定的列，包括查询指定列、查询所有列以及计算值的查询。此外，还详细解释了如何使用列别名来修改查询结果的列标题，并介绍了更名运算的应用场景和实现方式。通过这些内容，读者可以更好地理解和掌握SQL查询的基本技巧和高级用法。 ... [详细]

蜡笔小新 2024-11-09 18:21:57
md5
Keepalived 的健康检查机制与配置方法

Keepalived 提供了多种强大且灵活的后端健康检查机制，包括 HTTP_GET、SSL_GET、TCP_CHECK、SMTP_CHECK 和 MISC_CHECK 等多种检测方法。这些健康检查功能确保了高可用性环境中的服务稳定性和可靠性。通过合理配置这些检查方式，可以有效监测后端服务器的状态，及时发现并处理故障，从而提高系统的整体性能和可用性。 ... [详细]

蜡笔小新 2024-11-09 15:46:26
md5
C语言程序调试与错误分析技巧

在C语言程序开发中，调试和错误分析是确保代码正确性和效率的关键步骤。本文通过一个简单的递归函数示例，详细介绍了如何编写和调试C语言程序。具体而言，我们将创建一个名为 `factorial.c` 的文件，实现计算阶乘的功能，并通过逐步调试来分析和解决可能出现的错误。此外，文章还探讨了常见的调试工具和技术，如GDB和断点设置，以帮助开发者高效地定位和修复问题。 ... [详细]

蜡笔小新 2024-11-09 14:51:11
rsa
POJ 2482 星空中的星星：利用线段树与扫描线算法解决

在《POJ 2482 星空中的星星》问题中，通过运用线段树和扫描线算法，可以高效地解决星星在窗口内的计数问题。该方法不仅能够快速处理大规模数据，还能确保时间复杂度的最优性，适用于各种复杂的星空模拟场景。 ... [详细]

蜡笔小新 2024-11-09 12:09:08
instance
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
uri
iOS中基于HTTPS协议的安全网络请求实现

在iOS开发中，基于HTTPS协议的安全网络请求实现至关重要。HTTPS（全称：HyperText Transfer Protocol over Secure Socket Layer）是一种旨在提供安全通信的HTTP扩展，通过SSL/TLS加密技术确保数据传输的安全性和隐私性。本文将详细介绍如何在iOS应用中实现安全的HTTPS网络请求，包括证书验证、SSL握手过程以及常见安全问题的解决方法。 ... [详细]

蜡笔小新 2024-11-08 17:13:51
runtime
Kafka 版本不兼容引发 TaskExecutor 启动故障分析与解决

在本地环境中部署了两个不同版本的 Flink 集群，分别为 1.9.1 和 1.9.2。近期在尝试启动 1.9.1 版本的 Flink 任务时，遇到了 TaskExecutor 启动失败的问题。尽管 TaskManager 日志显示正常，但任务仍无法成功启动。经过详细分析，发现该问题是由 Kafka 版本不兼容引起的。通过调整 Kafka 客户端配置并升级相关依赖，最终成功解决了这一故障。 ... [详细]

蜡笔小新 2024-11-08 14:13:56
rsa
深入解析 OpenSSL 生成 SM2 证书：非对称加密技术与数字证书、数字签名的关联分析

本文深入探讨了 OpenSSL 在生成 SM2 证书过程中的技术细节，重点分析了非对称加密技术在数字证书和数字签名中的应用。非对称加密通过使用公钥和私钥对数据进行加解密，确保了信息传输的安全性。公钥可以公开分发，用于加密数据或验证签名，而私钥则需严格保密，用于解密数据或生成签名。文章详细介绍了 OpenSSL 如何利用这些原理生成 SM2 证书，并讨论了其在实际应用中的安全性和有效性。 ... [详细]

蜡笔小新 2024-11-08 11:18:56
go
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08

佩菱淑华7

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章