当前位置: 开发笔记 > 编程语言 > 正文

Impala查询缓慢问题发现与解决

作者：菜牛 | 来源：互联网 | 2023-07-28 08:49

更多精彩，请点击上方蓝字关注我们！1问题情况前提ImpalaDaemon已启用-co

更多精彩，请点击上方蓝字关注我们！

1 问题情况

前提

Impala Daemon已启用-convert_legacy_hive_parquet_utc_timestamps

Hive创建测试表，其中“statsdate”字段为TIMESTAMP类型：

[root@cdh4 scripts]# cat createSourceTable.sql create database if not exists iot_test; use iot_test; create table if not exists hive_table_text ( ordercoldaily BIGINT, smsusedflow BIGINT, gprsusedflow BIGINT, statsdate TIMESTAMP, custid STRING, groupbelong STRING, provinceid STRING, apn STRING ) PARTITIONED BY ( subdir STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY "," ;

执行命令

./hivesql_exec.sh createSourceTable.sql

查看测试表，在beeline中
执行命令，查看表结构

show create table hive_table_test;

测试数据准备

生成测试数据，gendata.sh脚本

[root@cdh4 scripts]# cat gendata.sh function rand(){ min=$1 max=$(($2-$min+1)) num=$(($RANDOM+1000000000)) echo $(($num%$max+$min)) } let i=1 while [ $i -le 3 ]; do let n=1 while [ $n -le $1 ]; do let mOnth=$n%12+1 if [ $month -eq 2 ];then let day=$n%28+1 else let day=$n%30+1 fi let hour=$n%24 rnd=$(rand 10000 10100) echo "$i$n,$i$n,$i$n,2017-$month-$day $hour:20:00,${rnd},$n,$n,$n" >> data$i.txt let n=n+1 done let i=i+1 done

执行命令

./gendata.sh 300000

上传测试数据

# 运行upLoad.sh脚本，将测试数据上传至HDFS的/tmp/hive目录下 [root@cdh4 scripts]# cat upLoadData.sh #!/bin/sh num=3 path='/tmp/hive' #create directory sudo -u hdfs hdfs dfs -mkdir -p $path sudo -u hdfs hdfs dfs -chmod 777 $path #upload file let i=1 while [ $i -le $num ]; do hdfs dfs -put data${i}.txt $path let i=i+1 done #list file hdfs dfs -ls $path

验证
加载数据进入测试表

# 执行./hivesql_exec.sh loadData.sql命令，加载数据 [root@cdh4 scripts]# cat loadData.sql use iot_test; LOAD DATA INPATH '/tmp/hive/data1.txt' INTO TABLE hive_table_test partition (subdir="10"); LOAD DATA INPATH '/tmp/hive/data2.txt' INTO TABLE hive_table_test partition (subdir="20"); LOAD DATA INPATH '/tmp/hive/data3.txt' INTO TABLE hive_table_test partition (subdir="30");

验证
Hive生成包含timestamp的parquet表

创建Parquet表

# 生成Parquet表语句如下，其中“statsdate”字段为TIMESTAMP类型 [root@cdh4 scripts]# cat genParquet.sql use iot_test; create table hive_table_parquet ( ordercoldaily BIGINT, smsusedflow BIGINT, gprsusedflow BIGINT, statsdate TIMESTAMP, custid STRING, groupbelong STRING, provinceid STRING, apn STRING ) PARTITIONED BY ( subdir STRING ) STORED AS PARQUET; set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; insert overwrite table hive_table_parquet partition (subdir) select * from hive_table_test

执行命令

./hivesql_exec.sh genParquet.sql

执行命令，查看数据总数

select count(*) from hive_table_parquet;

验证Parquet文件是否由Hive生成

[root@cdh4 scripts]# hdfs dfs -ls -R user/hive/warehouse/iot_test.db/hive_table_parquet/

[root@cdh4 scripts]# parquet-tools meta hdfs://cdh3.macro.com:8020/user/hive/warehouse/iot_test.db/hive_table_parquet/subdir=10/000000_0 creator: parquet-mr version 1.5.0-cdh5.13.1 (build ${buildNumber}) file schema: hive_schema

并发测试脚本准备

脚本

# Impala负载均衡地址为：cdh4.macro.com:25003 [root@cdh4 scripts]# cat impala-test.sh #!/bin/sh #Concurrency test let i=1 while [ $i -le $1 ]; do impala-shell -B -i cdh4.macro.com:25003 -u hive -f $2 -o log/${i}.out & let i=i+1 done wait

SQL测试

SELECT nvl(A.TOTALGPRSUSEDFLOW,0) as TOTALGPRSUSEDFLOW, nvl(A.TOTALSMSUSEDFLOW,0) as TOTALSMSUSEDFLOW, B.USEDDATE AS USEDDATE FROM ( SELECT SUM(GPRSUSEDFLOW) AS TOTALGPRSUSEDFLOW, SUM(SMSUSEDFLOW) AS TOTALSMSUSEDFLOW, cast(STATSDATE as timestamp) AS USEDDATE FROM hive_table_parquet SIMFLOW WHERE SIMFLOW.subdir = '10' AND SIMFLOW.CUSTID = '10099' AND cast(SIMFLOW.STATSDATE as timestamp) >= to_date(date_sub(current_timestamp(),7)) AND cast(SIMFLOW.STATSDATE as timestamp) GROUP BY STATSDATE ) A RIGHT JOIN ( SELECT to_date(date_sub(current_timestamp(),7)) AS USEDDATE UNION ALL SELECT to_date(date_sub(current_timestamp(),1)) AS USEDDATE UNION ALL SELECT to_date(date_sub(current_timestamp(),2)) AS USEDDATE UNION ALL SELECT to_date(date_sub(current_timestamp(),3)) AS USEDDATE UNION ALL SELECT to_date(date_sub(current_timestamp(),4)) AS USEDDATE UNION ALL SELECT to_date(date_sub(current_timestamp(),5)) AS USEDDATE UNION ALL SELECT to_date(date_sub(current_timestamp(),6)) AS USEDDATE ) B on to_date(A.USEDDATE) = to_date(B.USEDDATE) ORDER BY B.USEDDATE

测试Impala并发

测试1个并发查询，以下共三次测试返回查询结果：
测试10个并发查询，以下共三次测试返回查询结果：

测试30个并发查询，以下共三次测试返回查询结果：
随着并发查询数量的增多，Impala查询性能越差

2 问题分析

3 解决方法

方法一：

去掉--convert_legacy_hive_parquet_utc_timestamps=true启动选项

方法二：

Parquet表用 Impala 生成

方法三：

Hive/Spark 产生 Parquet 表时使用STRING类型代表时间

并且时间格式采用 yyyy-MM-dd HH:mm:ss.SSS 或者 yyyy-MM-dd HH:mm:ss
这种方式下，使用 Impala 的date/time函数时, Impala 会自动将其转换成TIMESTAMP类型

关注公众号：领取精彩视频课程&海量免费语音课程

推荐阅读

get
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
require
利用 Node.js 和 Express（4.x 及以上版本）构建高效文件上传功能

本文介绍了如何使用 Node.js 和 Express（4.x 及以上版本）构建高效的文件上传功能。通过引入 `multer` 中间件，可以轻松实现文件上传。首先，需要通过 `npm install multer` 安装该中间件。接着，在 Express 应用中配置 `multer`，以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置，帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]

蜡笔小新 2024-11-11 18:02:17
version
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
get
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
controller
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
get
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
runtime
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
get
Delphi XE Rtti单元深入解析：TRttiContext的应用与实践

Delphi XE Rtti单元深入解析：TRttiContext的应用与实践 ... [详细]

蜡笔小新 2024-11-11 13:06:16
require
C#中数值结果的格式化展示方法与技巧

在C#编程中，数值结果的格式化展示是提高代码可读性和用户体验的重要手段。本文探讨了多种格式化方法和技巧，如使用格式说明符、自定义格式字符串等，以实现对数值结果的精确控制。通过实例演示，展示了如何灵活运用这些技术来满足不同的展示需求。 ... [详细]

蜡笔小新 2024-11-11 09:27:57
get
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
get
C++实现的键盘输入记录程序源代码分析与应用

本文详细解析了使用C++实现的键盘输入记录程序的源代码，该程序在Windows应用程序开发中具有很高的实用价值。键盘记录功能不仅在远程控制软件中广泛应用，还为开发者提供了强大的调试和监控工具。通过具体实例，本文深入探讨了C++键盘记录程序的设计与实现，适合需要相关技术的开发者参考。 ... [详细]

蜡笔小新 2024-11-10 15:44:03
version
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
get
深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案

深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案 ... [详细]

蜡笔小新 2024-11-09 19:04:36
get
艾伟深入解析：WCF Binding模型中的绑定元素详解

本文深入解析了WCF Binding模型中的绑定元素，详细介绍了信道、信道管理器、信道监听器和信道工厂的概念与作用。从对象创建的角度来看，信道管理器负责信道的生成。具体而言，客户端的信道通过信道工厂进行实例化，而服务端则通过信道监听器来接收请求。文章还探讨了这些组件之间的交互机制及其在WCF通信中的重要性。 ... [详细]

蜡笔小新 2024-11-09 17:13:19
int
【源自百度知识】批处理技术详解与应用

本文详细介绍了批处理技术的基本概念及其在实际应用中的重要性。首先，对简单的批处理内部命令进行了概述，重点讲解了Echo命令的功能，包括如何打开或关闭回显功能以及显示消息。如果没有指定任何参数，Echo命令会显示当前的回显设置。此外，文章还探讨了批处理技术在自动化任务执行、系统管理等领域的广泛应用，为读者提供了丰富的实践案例和技术指导。 ... [详细]

蜡笔小新 2024-11-09 10:19:25

菜牛

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章