当前位置: 开发笔记 > 编程语言 > 正文

【Hadoop离线基础总结】Hive调优手段

作者：xiaodanzhang | 来源：互联网 | 2023-08-23 14:10

Hive调优手段最常用的调优手段Fetch抓取MapJoin分区裁剪列裁剪控制map个数以及reduce个数JVM重用数据压缩Fetch的抓取出现原因Hive中对某些情况的查询不必

Hive调优手段

最常用的调优手段

Fetch抓取
MapJoin
分区裁剪列裁剪
控制map个数以及reduce个数
JVM重用
数据压缩

Fetch的抓取

出现原因
Hive中对某些情况的查询不必使用MapReduce计算。在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。（原则就是能不用MapReduce就不用MapReduce）
比如以下这几种情况：
SELECT * FROM score;
SELECT s_score FROM score;
SELECT s_score FROM score LIMIT 3;
设置方法
第一种： 设置配置文件hive-default.xml，有三个取值：none / minimal / more，老版本默认为minimal，新版本默认为more，应该设置为more
```
<property>
    <name>hive.fetch.task.conversionname>
    <value>morevalue>
property>
```
第二种： set hive.fetch.task.cOnversion=more;

本地模式

出现原因
在遇到处理大量小文件时，给一个个小文件分配 container 的时间会远远超过数据处理的时间。Hive的本地模式可以设置当输入数据的个数小于多少个、输入数据大小小于多少M时，就将所有的数据放到一个MapTask和一个ReduceTask中处理。
设置方法
set hive.exec.model.local.auto=true; 开启Hive本地模式，Hive会在适当的时候自动启动
set hive.exec.mode.local.auto.inputbytes.max=51234560; 当输入数据量小于这个值时启动本地模式，默认值为128M
set hive.exec.mode.local.auto.input.files.max=10;当输入文件个数小于这个值时启动本地模式，默认值是4个

表的优化

小表 join 大表
将key相对分散并且数据量小的表放在join的左边，这样既可以减少内存溢出错误发生的几率，又可以使用Group让小的维度表（1000条以下的记录条数）先进内存，在map端完成reduce。
早起版本需要考虑此种优化方式，现在版本的hive有了一个优化器，可以自动选择出小表，并将小表的数据一次性放到内存
多个表关联时，最好分拆成小段，避免大sql（无法控制中间Job）
大表 join 大表
原则：尽量减少输入量

(1) 空key过滤
有时一些数据表中会出现大量的相同key对应着空字段，如果这些key对应的是异常数据，这时就可以过滤空key来优化Hive的运行速度
```
INSERT OVERWRITE TABLE jointable
SELECT a.* FROM(
SELECT * FROM nullidtable
WHERE id is NOT NULL) AS a				//过滤空KEY的操作
JOIN ori AS b
ON a.id=b.id;
```
(2) 空key转换
如果key对应的不是异常数据，且其对应的值必须包含在join的结果中，那么就可以将主表中key为空的字段赋一个随机值，这样可以使数据随机均匀地分不到不同的reducer上，避免数据倾斜
set set hive.exec.reducers.bytes.per.reducer=32123456; 设置每个reduce任务处理的数据量
set mapreduce.job.reduces=7; 设置执行任务的reduce个数
```
INSERT OVERWRITE TABLE jointable
SELECT a.* FROM nullidtable AS a
LEFT JOIN ori AS b
ON CASE WHEN a.id is NULL THEN concat('hive',rand())		//如果A表的ID为空，就转换为'hive+生成的随机数字'
ELSE a.id END = b.id										//如果不为空，直接输出a.id
```
MapJoin
这就是前面提到的，新版本hive自动选择小表的设定
set hive.auto.convert.join = true; 开启MapJoin，一般默认就是开启的
set hive.mapjoin.smalltable.filesize=25123456; 设置数据大小是多少值以下为小表，默认是25M
工作机制：
Group By
一般情况下，Map阶段的Key相同的数据会分发给一个Reduce，如果Key相同的数据过大时就会发生数据倾斜。其实，并不是所有的聚合操作要在Reduce阶段完成，很多聚合操作可以现在Map端进行部分聚合
set hive.map.aggr = true; 开启在Map端的聚合操作，默认为true
set hive.groupby.mapaggr.checkinterval = 100000; 在Map端进行聚合操作的条目数目，默认100000条
set hive.groupby.skewindata = true; 有数据倾斜的时候进行负载均衡，默认是false
负载均衡的选项设置为true后，查询计划会生成两个MapReduce Job。
第一个MapReduce Job中，Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，在这一步中相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；（这一步主要在做负载均衡）
第二个MapReduce Job中，会根据预处理的数据结果按照Group By Key分布到Reduce中（这个过程可以保证相同的Group By Key被分布到同一个Reduce中），最后完成最终的聚合操作。（这一步主要在分组）
Count (Distinct)
在数据量很大的情况下，COUNT(DISTINCT)的操作需要用一个ReduceTask来完成，这样这个ReduceTask要处理的数据量巨大，这种情况可以用 先GROUP BY再COUNT 的方法替换，从而优化hive
比如：
SELECT COUNT(DISTINCT id)FROM bigtable;
可以替换为
```
SELECT COUNT(id) FROM(
SELECT id FROM bigtable
GROUP BY id) AS a;
```
笛卡尔积
尽量避免笛卡尔积，即避免join的时候不加on条件，或者无效的on条件，Hive只能使用1个reducer来完成笛卡尔积。

分区剪裁、列剪裁
尽量只拿需要的列，有分区就要带上分区条件，另外遇到如下情况，尽量先过滤再Join

SELECT a.id FROM bigtable AS a
LEFT JOIN ori AS b
ON a.id=b.id
WHERE b.id<=10;

可以替换为

SELECT a.id FROM bigtable AS a
LEFT JOIN ori AS b
ON (b.id<=10 AND a.id=b.id);

或者

SELECT a.id FROM bigtable AS a
LEFT JOIN (
SELECT id FROM ori
WHERE id <=10) AS b
ON a.id=b.id;

动态分区调整
主要适用于分区表，以第一个表的分区规则，来对应第二个表的分区规则，将第一个表的所有分区，全部拷贝到第二个表中来，第二个表在加载数据的时候，不需要指定分区，直接用第一个表的分区即可
set hive.exec.dynamic.partition = true; 开启动态分区功能，默认为true
set hive.exec.dynamic.partition.mode = nonstrict; 设置为非严格模式，strict为严格模式，表示必须至少指定一个分区为静态分区，nonstrict表示允许所有的分区字段都可以使用动态分区）
set hive.exec.max.dynamic.partitiOns= 1000; 在所有执行MR的节点上，最大一共可以创建多少个动态分区，默认1000个
set hive.exec.max.dynamic.partitions.pernode = 100; 在每个执行MR的节点上，最大可以创建多少个动态分区。这是要根据实际情况来决定的，比如拿到的源数据中为一年的数据，这时就需要设置的值就要大于365，否则就会报错
set hive.exec.max.created.files = 100000; **整个MR Job中，最多可以创建多少个HDFS文件。**在linux系统当中，每个linux用户最多可以开启1024个进程，每一个进程最多可以打开2048个文件，即持有2048个文件句柄，这里设置的值越大，可以打开的文件句柄越大
set hive.error.on.empty.partition = false; 当有空分区生成时，是否抛出异常。 一般不需要设置
当不使用动态分区插入数据时，需要手动指定分区值
```
INSERT OVERWRITE TABLE ori_partitioned_target
PARTITION (p_time='20130812')
SELECT id，time, uid, keyword, url_rank, click_num, click_url 
FROM ori_partitioned; 
```
使用动态分区插入数据时，不用手动指定分区，但是select最后面的字段，一定要是分区字段，分区字段的值不能是中文
```
INSERT OVERWRITE TABLE ori.partitioned_target
PARTITION (p_time)
SELECT id, time, uid, keyword ,url_rank, click_num, click_url, p_time
FROM ori_partitioned;
```
分桶表
分桶表可以将大文件按照规则分成多个小文件，也能达到优化hive的效果，详情请见【Hadoop离线基础总结】Hive的基本操作

数据倾斜

概述
发生数据倾斜的原因在【Hadoop离线基础总结】MapReduce参数优化提到过，就是大量的数据都涌到同一个reduceTask里面去，造成一个reduceTask里面处理得数据量太大，迟迟不能完成。
通常情况下，Job会通过input的目录产生一个或者多个MapTask。生成MapTask数的主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(128M)
是不是MapTask数越多越好？不是。如果一个任务有大量的小文件（远远小于128M），每一个小文件就会产生一个block块，也就会对应产生一个MapTask，这样一个MapTask的启动和初始化时间远远超过了逻辑处理的时间，就会造成资源浪费。而且MapTask同时可执行的数量也是有限的。
那保证每个文件都接近128M是不是就可以了？不一定。如果有一个文件是127M，它只会用一个MapTask，但这个文件中只有一个或者两个字段，却有上千上万条记录，同时如果Map处理的逻辑也比较复杂的话，用一个MapTask会很耗时。
所以要根据实际情况来增加或者 减少Map数
减少Map数（合并小文件）
set mapred.max.split.size=112345600; 每个切片最大的值
set mapred.min.split.size.per.node=112345600; 每个节点上切片最小的大小
set mapred.min.split.size.per.rack=112345600; 每个交换机上切片最小的大小
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; hive默认的hive.input.format
这些参数表示在执行任务前按照这些参数来合并小文件，前面三个参数确定合并文件块的大小，大于文件块大小128m的，按照128m来分隔，小于128m，大于100m的，按照100m来分隔，把那些小于100m的（包括小文件和分隔大文件剩下的），进行合并。(蓝字这些我觉得说的不对，弄明白了再来改)
增加Map数：
现在如果只有一个表a，大小为120M，但包含着几千万条记录，如果用一个MapTask去做肯定会很耗时，该怎么做？
首先，先用DISTRIBUTE BY把表a打散成10个小文件
set mapreduce.job.reduces =10;
```
CREATE TABLE a_1
SELECT * FROM a
DISTRIBUTE BY rand(123); 			//rand(123)=0.7231742029971469 是一个固定值
```
完成后用表a_1执行任务，就会同时有10个MapTask去完成任务
根据实际情况，控制map数量需要遵循两个原则：使大数据量利用合适的map数；使单个map任务处理合适的数据量；
那么，是不是reduce数越多越好？
不一定。过多的启动和初始化reduce也会消耗时间和资源。另外，相应的reduce数会产生相应的输出文件数，如果要利用这些输出文件作为下一个任务的输入文件的话，过多的输入文件也会产生问题。
控制reduce数同样也需要遵循那两个原则：处理大数据量利用合适的reduce数；使单个reduce任务处理数据量大小要合适；
调整Reduce
方法一：估算reduce个数
set hive.exec.reducers.bytes.per.reducer=256123456; 每个Reduce处理的数据量默认是256MB
set hive.exec.reducers.max=1009; 每个任务最大的reduce数，默认为1009
N=min(参数2，总输入数据量/参数1) 计算reduce数公式
方法二：
在hadoop的mapred-default.xml文件中修改
方法三：
set mapreduce.job.reduces = 15; 设置reduce个数

执行计划

基本语法
EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query
比如：EXPLAIN SELECT * FROM course; 或者 EXPLAIN SELECT s_id,AVG(s_score) AS avgScore FROM score GROUP BY s_id;
还可以查看更为详细的执行计划：EXPLAIN EXTENDED SELECT * FROM course;

并行执行

set hive.exec.parallel=true; 打开任务并行执行
set hive.exec.parallel.thread.number=16; 同一hql最大并行度，默认为8

hive的严格模式

作用
1.分区表必须要带上分区字段。（对于分区表，除非where语句中含有分区字段过滤条件来限制范围，否则不允许执行。换句话说，就是用户不允许扫描所有分区。进行这个限制的原因是，通常分区表都拥有非常大的数据集，而且数据增加迅速。没有进行分区限制的查询可能会消耗令人不可接受的巨大资源来处理这个表）
2.使用了order by就必须要使用limit语句。（因为order by为了执行排序过程会将所有的结果数据分发到同一个Reducer中进行处理，强制要求用户增加LIMIT语句可以防止Reducer额外执行很长一段时间）
3.限制笛卡尔积。

JVM重用

概述
Container执行完了MapTask或者ReduceTask之后，不要释放资源，继续给下一个MapTask或者ReduceTask进行执行。
set mapred.job.reuse.jvm.num.tasks=10; 开启JVM重用
缺点
开启JVM重用将一直占用task插槽，以便进行重用，直到任务完成后才能释放。如果某个“不平衡的”job中有某几个ReduceTask执行的时间要比其他ReduceTask消耗的时间长的话，那么保留的插槽就会一直空闲着却无法被其他的job使用，直到所有的task都结束了才会释放。

推荐阅读

get
SQL日志收缩及截断方法详解

本文详细介绍了SQL日志收缩的方法，包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时，还介绍了截断日志的原理和注意事项，包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法，可以有效减小逻辑日志的大小，提高数据库的性能。 ... [详细]

蜡笔小新 2023-12-14 18:23:25
list
Oracle中tnsnames.ora的作用和配置方法

本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取，用于解析LOCAL_LISTENER，并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例，并展示了listener.ora文件的内容。 ... [详细]

蜡笔小新 2023-12-14 07:44:06
int
如何在php中将mysql查询结果赋值给变量

本文介绍了在php中将mysql查询结果赋值给变量的方法，包括从mysql表中查询count(学号)并赋值给一个变量，以及如何将sql中查询单条结果赋值给php页面的一个变量。同时还讨论了php调用mysql查询结果到变量的方法，并提供了示例代码。 ... [详细]

蜡笔小新 2023-12-12 18:22:57
list
MyBatis多表查询与动态SQL使用

本文介绍了MyBatis多表查询与动态SQL的使用方法，包括一对一查询和一对多查询。同时还介绍了动态SQL的使用，包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]

蜡笔小新 2023-12-12 17:12:51
list
Redis底层数据结构之压缩列表的介绍及实现原理

本文介绍了Redis底层数据结构之压缩列表的概念、实现原理以及使用场景。压缩列表是Redis为了节约内存而开发的一种顺序数据结构，由特殊编码的连续内存块组成。文章详细解释了压缩列表的构成和各个属性的含义，以及如何通过指针来计算表尾节点的地址。压缩列表适用于列表键和哈希键中只包含少量小整数值和短字符串的情况。通过使用压缩列表，可以有效减少内存占用，提升Redis的性能。 ... [详细]

蜡笔小新 2023-12-12 16:06:05
int
Python中字符串的压缩与解压缩方法及应用

本文介绍了在Python中使用zlib模块进行字符串的压缩与解压缩的方法，并探讨了其在内存优化方面的应用。通过压缩存储URL等长字符串，可以大大降低内存消耗，虽然处理时间会增加，但是整体效果显著。同时，给出了参考链接，供进一步学习和应用。 ... [详细]

蜡笔小新 2023-12-11 17:42:43
char
Oracle的PL/SQL编程基础技能实战一

一基础代码检查检查以bm_开头的系统初始化编码表是否有空值。与业务系统相关的编码项不能存在空值，会导致系统业务无法办理。为初始化数据表、在做测试数据和正式上线前检查。上线 ... [详细]

蜡笔小新 2023-10-17 09:38:23
char
PHP操作MySql数据库_PHP教程

PHP操作MySql数据库_PHP教程:链接数据库$conn@mysql_connect(localhost,root,88888888)ordie(链接错误);解决中文乱码mys ... [详细]

蜡笔小新 2023-10-17 04:43:28
char
python3连接外部Mysql

前提条件，已经安装过MySQL（比如说以前web开发安装过MySQL）1.安装PyMySQLpipinstallPyMySQL2.测试1i ... [详细]

蜡笔小新 2023-10-16 19:06:51
process
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
int
php连接mysql显示数据,php连接mysql数据库的算法思想

本文目录一览：1、怎么用php显示mysql数据表数据 ... [详细]

蜡笔小新 2023-10-16 13:24:54
char
Python操作MySQL（pymysql模块）详解及示例代码

本文介绍了使用Python操作MySQL数据库的方法，详细讲解了pymysql模块的安装和连接MySQL数据库的步骤，并提供了示例代码。内容涵盖了创建表、插入数据、查询数据等操作，帮助读者快速掌握Python操作MySQL的技巧。 ... [详细]

蜡笔小新 2023-12-10 17:50:06
version
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
version
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
get
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27

xiaodanzhang

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章