热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hive优化配置等汇总

1.大小表join(数据倾斜,包括笛卡尔积)优化,小表写在前面(小表大表谁在前区别不大)

1.大小表join(数据倾斜,包括笛卡尔积)优化,小表写在前面(小表大表谁在前区别不大),0.7版本前需要在sql中写/+mapjoin(small_tablename)/,之后版本 set hive.auto.convert.join=true; 即可自动转换,写不写/+mapjoin(small_tablename)/没有区别。

脚本开头写:

set hive.auto.convert.join=true;

set hive.mapjoin.smalltable.filesize=25000000; – 小于25mb为小表

2.Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎。据我观察,跑HQL时,CPU使用率很高,而内存使用率很低(不到30%),可以将一些HQL脚本改为Spark计算引擎。

脚本开头写:

set hive.execution.engine=spark;

3.如果要实现in/exists/like in等,用左半连接替代,效率会有极大提升,但是条件只能写在on后,select where后都不能有关于右表的条件。

LEFT SEMI JOIN

4.在hue中可以使用impala/hive等编辑器,impala与hive的sql基本一致,且impala比hive快很多,若想快速进行交互式数据分析建议用impala。impala与hive区别见下:

4.1展示分区时,impala显示信息更多,包括表大小等;

show partitions xx;

4.2 impala中on可以只有不对等条件,hive不行;

4.3 hive插入数据与表字段类型不一致可隐形转换,impala不行;

4.4 impala中不可以写set配置,hive可以。

5.在hue中使用hive编辑器时,可以配置参数,速度会快很多。

set hive.auto.convert.join=true;

set hive.execution.engine=spark;

用完后不要忘记换回mr,不然会一直占用资源:

set hive.execution.engine=mr;

6.判断数据倾斜:

大量相同的key被分配到一个reduce里,造成一个reduce任务累死,其他reduce闲死。查看进度,长时间停留在99%或100%,只有少量reduce子任务未完成。

7.如有需要,使用sum/count/max/min等UDAF或自定义函数,使表在map端汇总合并优化,减少数据倾斜情况。

8.目前我们使用的是Hive 2.1.1,如果后续升级到2.3(最好3.0)后,可以使用物化视图对一些中间表进行优化。

9.配置汇总:

每个配置参数都要搞清楚什么意思,不要单纯的复制粘贴,也不要投鼠忌器,什么都不加,要根据SQL和表情况选择合适的配置。

set hive.mapred.mode=nonstrict; – 如果为严格,将禁止三种类型的查询,自行百度。

set hive.exec.dynamic.partition=true; – 是否打开动态分区

set hive.exec.dynamic.partition.mode=nonstrict; – 打开动态分区后,使用不严格模式

set hive.auto.convert.join=true; – 是否开启自动转换

set hive.mapjoin.smalltable.filesize=25000000; – 小于25mb 为小表

set hive.exec.parallel=true; – 是否开启并发提交

set hive.execution.engine=spark; – 设置计算引擎为spark,默认mr

– set mapreduce.job.priority=high; – 设置mr job的优先级

– set hive.auto.convert.join=false; – 与下面配套使用

– set hive.ignore.mapjoin.hint=false; – 是否忽略mapjoin hint,当关闭自动转换时手写

– set hive.cli.print.current.db=true; – cli print 显示当前库 命令行里用的,跟脚本无关

更多内容见:https://www.cnblogs.com/swordfall/p/11037539.html


推荐阅读
  • 本文介绍了如何在MySQL中将零值替换为先前的非零值的方法,包括使用内联查询和更新查询。同时还提供了选择正确值的方法。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
  • FineReport平台数据分析图表显示部分系列接口的应用场景和实现思路
    本文介绍了FineReport平台数据分析图表显示部分系列接口的应用场景和实现思路。当图表系列较多时,用户希望可以自己设置哪些系列显示,哪些系列不显示。通过调用FR.Chart.WebUtils.getChart("chartID").getChartWithIndex(chartIndex).setSeriesVisible()接口,可以获取需要显示的系列图表对象,并在表单中显示这些系列。本文以决策报表为例,详细介绍了实现方法,并给出了示例。 ... [详细]
  • 本文介绍了在MySQL8.0中如何查看性能并解析SQL执行顺序。首先介绍了查询性能工具的开启方法,然后详细解析了SQL执行顺序中的每个步骤,包括from、on、join、where、group by、having、select distinct、union、order by和limit。同时还介绍了虚拟表的概念和生成过程。通过本文的解析,读者可以更好地理解MySQL8.0中的性能查看和SQL执行顺序。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 合并列值-合并为一列问题需求:createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]
  • MySQL多表数据库操作方法及子查询详解
    本文详细介绍了MySQL数据库的多表操作方法,包括增删改和单表查询,同时还解释了子查询的概念和用法。文章通过示例和步骤说明了如何进行数据的插入、删除和更新操作,以及如何执行单表查询和使用聚合函数进行统计。对于需要对MySQL数据库进行操作的读者来说,本文是一个非常实用的参考资料。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 本文详细介绍了Spring的JdbcTemplate的使用方法,包括执行存储过程、存储函数的call()方法,执行任何SQL语句的execute()方法,单个更新和批量更新的update()和batchUpdate()方法,以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 本文介绍了通过mysql命令查看mysql的安装路径的方法,提供了相应的sql语句,并希望对读者有参考价值。 ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • 前景:当UI一个查询条件为多项选择,或录入多个条件的时候,比如查询所有名称里面包含以下动态条件,需要模糊查询里面每一项时比如是这样一个数组条件:newstring[]{兴业银行, ... [详细]
author-avatar
mofa007_903
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有