Hiveday08调优

作者：碎蜂CYM夜一 | 来源：互联网 | 2023-09-18 09:01

1：EXPLAIN查看执行计划hive(default)explainextendedselect*fromemp;hive(default)explaine

1&＃xff1a;EXPLAIN查看执行计划

hive (default)> explain extended select * from emp; hive (default)> explain extended select deptno, avg(sal) avg_sal from emp group by deptno;

2&＃xff1a;FETCH抓取

Fetch抓取是指 Hive中对某些情况的查询可以不必使用 MapReduce计算。例如 SELECT * FROM employees;在这种情况下 Hive可以简单地读取 employee对应的存储目录下的文件&＃xff0c;然后输出查询结果到控制台。在hive-default.xml.template文件中 hive.fetch.task.conversion默认是 more 老版本 hive默认是 minimal 该属性修改为 more以后在全局查找、字段查找、 limit查找等都不走mr。

1&＃xff1a;把 hive.fetch.task.conversion设置成none&＃xff0c;然后执行查询语句&＃xff0c;都会执行mapreduce程序。hive (default)> set hive.fetch.task.conversion&＃61;none; hive (d efault)> select * from emp; hive (default)> select ename from emp; hive (default)> select ename from emp limit 3;2&＃xff1a;把hive.fetch.task.conversion设置成more然后执行查询语句如下查询方式都不会执行mr程序。hive (default)> set hive.fetch.task.conversion&＃61;more; hive (default)> select * from emp; hive (default)> select ename from emp; hive (default)> select ename from emp limit 3;

3&＃xff1a;本地模式

如果数据量比较小&＃xff0c;在这种情况下&＃xff0c;为查询触发执行任务消耗的时间可能会比实际job的执行时间要多得多。所以&＃xff0c;这时&＃xff0c;Hive可以通过本地模式在单台机器上处理所有的任务&＃xff0c;对于小数据集&＃xff0c;执行时间可以明显被缩短。

如下是关于是否开启本地模式&＃xff0c;以及开启本地模式的触发条件。

set hive.exec.mode.local.auto&＃61;true; 开启本地 mr设置local mr的最大输入数据量&＃xff0c;当输入数据量小于这个值时采用local mr的方式&＃xff0c;默认为134217728&＃xff0c;即 128M set hive.exec.mode.local.auto.inputbytes.max&＃61;500000000设置 local mr的最大输入文件个数&＃xff0c;当输入文件个数小于这个值时采用local mr的方式&＃xff0c;默认为4 set hive.exec.mode.local.auto.input.files.max&＃61;10;

4&＃xff1a;小表大表Join&＃xff08;MapJoin&＃xff09;

1&＃xff1a;设置自动选择MapJoinset hive.auto.convert.join &＃61; true; 默认为true2&＃xff1a;大表小标的阈值设置set hive.mapjoin.smalltable.filesize &＃61; 25000000&＃xff1b;insert overwrite table jointable select b.id, b.t, b.uid, b.keyword, b.url_rank,b.click_num, b.click_url from smalltable s join bigtable b on b.id &＃61; s.id;insert overwrite table jointable select b.id, b.t, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url from bigtable b join smalltable s on s.id &＃61; b.id;

5&＃xff1a;大表Join大表

1&＃xff1a;空key过滤

条件&＃xff08;1&＃xff1a;非inner join。2&＃xff1a;不需要字段为null的

hive (default)> insert overwrite table jointable select n.* from (select * from nullidtable where id is not null) n left join bigtable o on n.id &＃61; o.id;

2&＃xff1a;空key转换

有时虽然某个key 为空对应的数据很多&＃xff0c;但是相应的数据不是异常数据&＃xff0c;必须要包含在join 的结果中&＃xff0c;此时我们可以表 a 中 key 为空的字段赋一个随机的值&＃xff0c;使得数据随机均匀地分不到不同的 reducer 上

insert overwrite table jointable select n.* from nullidtable n left join bigtable b on n.id &＃61; b.id;insert overwrite table jointable select n.* from nullidtable n full join bigtable o on nvl(n.id,rand()) &＃61; o.id;

3&＃xff1a;SMB

先通过key值进行hash&＃xff0c;将两个大表分成相同个数的桶&＃xff0c;这样的话&＃xff0c;A表的第一个桶就是B表的第一个桶相对应&＃xff0c;依次对应&＃xff0c;然后join&＃xff0c;最后再拼接。

SMB&＃xff0c;分桶之前create table bigtable(id bigint, t bigint, uid string, keyword string,url_rank int, click_num int, click_url string) row format delimited fields terminated by &＃39;\t&＃39;;create table bigtable 2&＃xff08;id bigint,t bigint,uid string,keyword string,url_rank int, click_num int,click_url string) row format delimited fields terminated by &＃39;\t&＃39;;加载数据 load data local inpath &＃39;/opt/module/data/bigtable&＃39; into table bigtable2;load data local inpath &＃39;/opt/module/data/bigtable&＃39; into table bigtable;insert overwrite table jointable select b.id, b.t, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url from bigtable s join bigtable 2 b on b.id &＃61; s.id;测试时间为88s

分桶方法create table bigtable_buck1( id bigint, t bigint, uid string, keyword string, url_rank int, click_num int, click_url string) clustered by(id) sorted by(id) into 6 buckets 桶的个数不要超过cpu的个数 row format delimited fields terminated by &＃39;\t&＃39;; load data local inpath &＃39;/opt/module/data/bigtable&＃39; into table bigtable_buck1;create table bigtable_buck2( id bigint, t bigint, uid string, keyword string, url_rank int, click_num int, click_url string) clustered by(id) sorted by(id) into 6 buckets row format delimited fields terminated by &＃39;\t&＃39;; load data local inpath &＃39;/opt/module/data/bigtable&＃39; into table bigtable_buck2;设置参数 set hive.optimize .bucketmapjoin &＃61; set hive.optimize.bucketmapjoin.sortedmerge &＃61; true; set hive.input.format&＃61;org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;测试insert overwrite table jointable select b.id, b.t, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url from bigtable_buck1 s join bigtable_buck2 b on b.id &＃61; s.id;测试时间为49s

6&＃xff1a;group by

默认情况下&＃xff0c;Map阶段同一key分发给一个reduce&＃xff0c;当一个key数据过大时就倾斜了。并不是所有的聚合操作都需要在Reduce 端完成&＃xff0c;很多聚合操作都可以先在 Map 端进行部分聚合&＃xff0c;最后在 Reduce 端得出最终结果。

开启Mao端聚合参数设置1&＃xff1a;是否在Map端进行聚合&＃xff0c;默认为True set hive.map.aggr &＃61; true2&＃xff1a;在Map端进行聚合操作的条目数目 set hive.groupby.mapaggr.checkinterval &＃61; 1000003&＃xff1a;有数据倾斜的时候进行负载均衡&＃xff0c;默认为false set hive.groupby.skewindata &＃61; true当选项为true&＃xff0c;查询计划会有两个mr job&＃xff0c;第一个mr job中&＃xff0c;map的输出结果会随机分布到reduce中&＃xff0c;每个reduce 做部分聚合&＃xff0c;并输出结果。这样是为了相同的group by key可能被分发到不同的reduce中&＃xff0c;从而达到负载均衡的目的。第二个mr job&＃xff0c;再根据预处理的数据按照group by key分布到reduce中&＃xff0c;最后完成聚合。

7&＃xff1a;Count&＃xff08;Distinct&＃xff09;去重统计

只涉及到一个Reduce&＃xff0c;所以如果数据量太大&＃xff0c;可能整个job很难完成。一般count distinct使用先group by再count的方式替换。

hive (default)> select count(distinct id) from bigtable;hive (default)> select count(id) from (select id from bigtable group by id) a;

8&＃xff1a;合理设置Map和Reduce数

9&＃xff1a;并行执行

Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、 limit 阶段。或者 Hive 执行过程中可能需要的其他阶段。默认情况下&＃xff0c;Hive 一次只会执行一个阶段。set hive.exec.parallel&＃61;true; 打开任务并行执行 set hive.exec.parallel.thread.number&＃61;16; // 同一个 sql 允许最大并行度&＃xff0c;默认为8 。

10&＃xff1a;严格模式

危险操作 1&＃xff1a;分区表不使用分区过滤hive.strict.checks.no.partition.filter设置为 true时&＃xff0c;对于分区表&＃xff0c;除非 where语句中含有分区字段过滤条件来限制范围否则不允许执行。换句话说&＃xff0c;就是用户不允许扫描所有分区。2&＃xff1a;使用order by没有limithive.strict.checks.orderby.no.limit设置为 true时&＃xff0c;对于使用了order by语句的查询&＃xff0c;要求必须使用 limit语句。因为 order by为了执行排序过程会将所有的结果数据分发到同一个Reducer中进行处理&＃xff0c;强制要求用户增加这个 LIMIT 语句可以防止 Reducer 额外执行很长一段时间。3&＃xff1a;笛卡尔积hive.strict.checks.cartesian.product 设置为true时&＃xff0c;会限制笛卡尔积的查询。

推荐阅读

get
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03
import
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
ip
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
jar
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
io
如何将955万数据表的17秒SQL查询优化至300毫秒

本文详细介绍了通过优化SQL查询策略，成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧，还深入探讨了背后的数据库原理。 ... [详细]

蜡笔小新 2024-11-21 12:11:54
ip
MongoDB 高可用集群搭建指南：分片、读写分离与负载均衡

本文详细介绍了如何搭建一个高可用的MongoDB集群，包括环境准备、用户配置、目录创建、MongoDB安装、配置文件设置、集群组件部署等步骤。特别关注分片、读写分离及负载均衡的实现。 ... [详细]

蜡笔小新 2024-11-20 18:28:16
get
php + layui 文件上传以及拖拽上传

HTML:　　将文件拖拽到此区域 ... [详细]

蜡笔小新 2024-11-20 14:27:32
ip
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
jar
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
ip
Zabbix自定义监控与邮件告警配置实践

本文详细介绍了如何在Zabbix中添加自定义监控项目，配置邮件告警功能，并解决测试告警时遇到的邮件不发送问题。 ... [详细]

蜡笔小新 2024-11-22 08:33:19
ip
Oracle VM VirtualBox 使用指南：创建静态网页及高级功能

本文详细介绍了如何在Oracle VM VirtualBox中实现主机与虚拟机之间的数据交换，包括安装Guest Additions增强功能，以及如何利用这些功能进行文件传输、屏幕调整等操作。 ... [详细]

蜡笔小新 2024-11-21 18:13:22
ip
ARM平台下构建SSH服务端并实现远程访问

本文详细介绍了如何在ARM架构的目标设备上部署SSH服务端，包括必要的软件包下载、交叉编译过程以及最终的服务配置与测试。适合嵌入式开发人员和系统集成工程师参考。 ... [详细]

蜡笔小新 2024-11-20 14:13:38
jar
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
jar
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
jar
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47

碎蜂CYM夜一

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章