hive中selectcount(distinctxx)fromtable查询慢原因及优化

作者： | 来源：互联网 | 2023-09-05 10:24

一.问题描述在hive中，如果数据量很大，selectcount(distinctxx)fromtable有时会查询非常慢举例说明：表名

一.问题描述

在hive中&＃xff0c;如果数据量很大&＃xff0c;select count(distinct xx) from table 有时会查询非常慢
举例说明&＃xff1a;
表名&＃xff1a;loan_trans
数据量&＃xff1a;551353635
存储空间&＃xff1a;52.93GB

select count(distinct id) from loan_trans where etl_tx_dt &＃61;20200202

number of mappers: 228; number of reducers: 1
执行开始时间-结束时间&＃xff1a; 7:48-7:57
执行结果&＃xff1a;3282768

二.分析原因

该语句转化为MapReduce作业后执行示意图如下
在这里插入图片描述
由于引入了DISTINCT&＃xff0c;因此在Map阶段无法利用combine对输出结果消重&＃xff0c;必须将id作为Key输出&＃xff0c;在Reduce阶段再对来自于不同Map Task、相同Key的结果进行消重&＃xff0c;计入最终统计值。
我们看到作业运行时的Reduce Task个数为1&＃xff0c;对于统计大数据量时&＃xff0c;这会导致最终Map的全部输出由单个的ReduceTask处理。这唯一的Reduce Task需要Shuffle大量的数据&＃xff0c;并且进行排序聚合等处理&＃xff0c;这使得它成为整个作业的IO和运算瓶颈。
经过上述分析后&＃xff0c;我们尝试显式地增大Reduce Task个数来提高Reduce阶段的并发&＃xff0c;使每一个Reduce Task的数据处理量控制在2G左右。具体设置如下&＃xff1a;

set mapred.reduce.tasks&＃61;100

调整后我们发现这一参数并没有影响实际Reduce Task个数&＃xff0c;Hive运行时输出“Number of reduce tasks determined at compile time: 1”。原来Hive在处理COUNT这种“全聚合(full aggregates)”计算时&＃xff0c;它会忽略用户指定的Reduce Task数&＃xff0c;而强制使用1。

三.优化

我们只能采用变通的方法来绕过这一限制。我们利用Hive对嵌套语句的支持&＃xff0c;将原来一个MapReduce作业转换为两个作业&＃xff0c;**在第一阶段选出全部的非重复id&＃xff0c;在第二阶段再对这些已消重的id进行计数。这样在第一阶段我们可以通过增大Reduce的并发数&＃xff0c;并发处理Map输出。在第二阶段&＃xff0c;由于id已经消重&＃xff0c;因此COUNT(*)操作在Map阶段不需要输出原id数据&＃xff0c;只输出一个合并后的计数即可。这样即使第二阶段Hive强制指定一个Reduce Task&＃xff0c;极少量的Map输出数据也不会使单一的Reduce Task成为瓶颈。**改进后的SQL语句如下&＃xff1a;

select count(*) from ( select id from loan_trans where etl_tx_dt &＃61;20200202 group by id ) t

或者

select count(*) from ( select distinct id from loan_trans where etl_tx_dt &＃61;20200202 ) t

二者的执行计划一致
执行计划如下&＃xff1a;

STAGE DEPENDENCIES:Stage-1 is a root stageStage-2 depends on stages: Stage-1Stage-0 depends on stages: Stage-2 "" STAGE PLANS:Stage: Stage-1Map ReduceMap Operator Tree:TableScanalias: loan_transfilterExpr: (etl_tx_dt &＃61; 20200202) (type: boolean)Statistics: Num rows: 551353635 Data size: 20400084495 Basic stats: COMPLETE Column stats: NONESelect Operatorexpressions: id (type: bigint)outputColumnNames: idStatistics: Num rows: 551353635 Data size: 20400084495 Basic stats: COMPLETE Column stats: NONEGroup By Operatorkeys: id (type: bigint)mode: hashoutputColumnNames: _col0Statistics: Num rows: 551353635 Data size: 20400084495 Basic stats: COMPLETE Column stats: NONEReduce Output Operatorkey expressions: _col0 (type: bigint)sort order: &＃43;Map-reduce partition columns: _col0 (type: bigint)Statistics: Num rows: 551353635 Data size: 20400084495 Basic stats: COMPLETE Column stats: NONEReduce Operator Tree:Group By Operatorkeys: KEY._col0 (type: bigint)mode: mergepartialoutputColumnNames: _col0Statistics: Num rows: 275676817 Data size: 10200042229 Basic stats: COMPLETE Column stats: NONESelect OperatorStatistics: Num rows: 275676817 Data size: 10200042229 Basic stats: COMPLETE Column stats: NONEGroup By Operatoraggregations: count()mode: hashoutputColumnNames: _col0Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONEFile Output Operatorcompressed: falsetable:input format: org.apache.hadoop.mapred.SequenceFileInputFormatoutput format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormatserde: org.apache.hadoop.hive.serde2.lazybinary.LazyBinarySerDe ""Stage: Stage-2Map ReduceMap Operator Tree:TableScanReduce Output Operatorsort order: Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONEvalue expressions: _col0 (type: bigint)Reduce Operator Tree:Group By Operatoraggregations: count(VALUE._col0)mode: mergepartialoutputColumnNames: _col0Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONEFile Output Operatorcompressed: falseStatistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONEtable:input format: org.apache.hadoop.mapred.TextInputFormatoutput format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormatserde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe ""Stage: Stage-0Fetch Operatorlimit: -1Processor Tree:ListSink ""

在实际运行时&＃xff0c;我们发现Hive还对这两阶段的作业做了额外的优化。它将第二个MapReduce作业Map中的Count过程移到了第一个作业的Reduce阶段。这样在第一阶Reduce就可以输出计数值&＃xff0c;而不是消重的全部id。这一优化大幅地减少了第一个作业的Reduce输出IO以及第二个作业Map的输入数据量。最终在同样的运行环境下优化后的语句执行只需要原语句20%左右的时间。优化后的MapReduce作业流如下&＃xff1a;
在这里插入图片描述
执行结果&＃xff1a;
执行进度: INFO : Stage-Stage-1: Map: 228 Reduce: 847 Cumulative CPU: 13120.27 sec HDFS Read: 2831413787 HDFS Write: 98252 SUCCESS
执行进度: INFO : Stage-Stage-2: Map: 142 Reduce: 1 Cumulative CPU: 367.8 sec HDFS Read: 544869 HDFS Write: 8 SUCCESS
执行开始时间-结束时间10:12-10:14
结果&＃xff1a;3282768

四.结论

第二次运行结果明显比第一次快了5倍&＃xff0c;所以在需要去重计算时
可以使用 select count(*) from (select distinct id from tablename)
替换
select count(distinct id) from tablename

推荐阅读

alias
MyBatis错题分析解析及注意事项

本文对MyBatis的错题进行了分析和解析，同时介绍了使用MyBatis时需要注意的一些事项，如resultMap的使用、SqlSession和SqlSessionFactory的获取方式、动态SQL中的else元素和when元素的使用、resource属性和url属性的配置方式、typeAliases的使用方法等。同时还指出了在属性名与查询字段名不一致时需要使用resultMap进行结果映射，而不能使用resultType。 ... [详细]

蜡笔小新 2023-12-13 18:40:17
fetch
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
default
用SQL语句怎么把已存在的列加上IDENTITY(1,1)属性

ALTERTABLE通过更改、添加、除去列和约束，或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]

蜡笔小新 2023-12-13 09:49:28
select
关于Linq to sql 实现模糊查询 string数组

前景：当UI一个查询条件为多项选择，或录入多个条件的时候，比如查询所有名称里面包含以下动态条件，需要模糊查询里面每一项时比如是这样一个数组条件：newstring[]{兴业银行, ... [详细]

蜡笔小新 2023-12-13 09:34:59
main
java boolean 大小_java boolean 大小

先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]

蜡笔小新 2023-12-12 13:36:56
text
Android自定义控件绘图篇之Paint函数大汇总

本文介绍了Android自定义控件绘图篇中的Paint函数大汇总，包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数，可以更好地掌握Paint的用法。 ... [详细]

蜡笔小新 2023-12-10 23:11:57
range
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
stream
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
stream
Oracle Database 10g许可授予信息及高级功能详解

本文介绍了Oracle Database 10g许可授予信息及其中的高级功能，包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明，指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]

蜡笔小新 2023-12-14 13:12:10
select
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30
select
Windows操作系统的版本介绍及特点

本文介绍了Windows操作系统的版本及其特点，包括Windows 7系统的6个版本：Starter、Home Basic、Home Premium、Professional、Enterprise、Ultimate。Windows操作系统是微软公司研发的一套操作系统，具有人机操作性优异、支持的应用软件较多、对硬件支持良好等优点。Windows 7 Starter是功能最少的版本，缺乏Aero特效功能，没有64位支持，最初设计不能同时运行三个以上应用程序。 ... [详细]

蜡笔小新 2023-12-12 17:41:13
select
Express App如何提供不需要的静态文件？

本文介绍了如何使用Express App提供静态文件，同时提到了一些不需要使用的文件，如package.json和/.ssh/known_hosts，并解释了为什么app.get('*')无法捕获所有请求以及为什么app.use(express.static(__dirname))可能会提供不需要的文件。 ... [详细]

蜡笔小新 2023-12-12 14:38:07
select
MacOS系统安装MySQL及设置MySQL服务开机启动和密码修改方法

本文介绍了在MacOS系统上安装MySQL的步骤，并详细说明了如何设置MySQL服务的开机启动和如何修改MySQL的密码。通过下载MySQL的macos版本并按照提示一步一步安装，在系统偏好设置中可以找到MySQL的图标进行设置。同时，还介绍了通过终端命令来修改MySQL的密码的具体操作步骤。 ... [详细]

蜡笔小新 2023-12-11 17:35:39
select
Android日历提醒软件开源项目分享及使用教程

本文介绍了一款名为Android日历提醒软件的开源项目，作者分享了该项目的代码和使用教程，并提供了GitHub项目地址。文章详细介绍了该软件的主界面风格、日程信息的分类查看功能，以及添加日程提醒和查看详情的界面。同时，作者还提醒了读者在使用过程中可能遇到的Android6.0权限问题，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-10 19:01:03
import
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07

Tags | 热门标签

RankList | 热门文章