hive合并小文件处理方案转载

作者：泰坦尼雅牧民 | 来源：互联网 | 2023-09-11 14:19

hadoop使用lzo压缩，block块大小为512MB环境：hadoop2.6hive1.2.1lzo压缩启动压缩sethive.exec.comp

hadoop使用lzo压缩&＃xff0c;block块大小为512MB

环境&＃xff1a;hadoop2.6&＃43;hive1.2.1 lzo压缩

启动压缩
set hive.exec.compress.output&＃61;true;
set mapreduce.output.fileoutputformat.compress&＃61;true;
1、减少map数&＃xff0c;&＃xff08;当有大量小文件时&＃xff0c;启动合并&＃xff09;
set hive.input.format&＃61;org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapreduce.input.fileinputformat.split.maxsize&＃61;1073741824;
set mapreduce.input.fileinputformat.split.minsize&＃61;1;
set mapreduce.input.fileinputformat.split.minsize.per.node&＃61;536870912;
set mapreduce.input.fileinputformat.split.minsize.per.rack&＃61;536870912;
经过测试&＃xff0c;这种设置可以在map阶段和并小文件&＃xff0c;减少map的数量。
注意&＃xff1a;在测试的时候&＃xff0c;如果文件格式为Textfile&＃xff0c;并且启用lzo压缩&＃xff0c;不能生效。 rcfile以及orc可以生效&＃xff0c;Textfile不启用lzo压缩也可以生效。如果是新集群的话&＃xff0c;没有历史遗留的问题的话&＃xff0c;建议hive都使用orc文件格式&＃xff0c;以及启用lzo压缩。

2、MR作业结束后&＃xff0c;判断生成文件的平均大小&＃xff0c;如果小于阀值&＃xff0c;就再启动一个job来合并文件
set hive.merge.mapredfiles&＃61;true;
set hive.merge.mapfiles&＃61;true;
set hive.merge.smallfiles.avgsize&＃61;268435456;
----------------------------------------------------------------------------------------------------------------
最近仓库里面新建了一张分区表&＃xff0c;数据量大约是12亿行&＃xff0c;分区比较多&＃xff0c;从2008年7月开始一天一个分区。

配置了一个任务

对这个表进行group by 的时候发现启动了2800多个maps .

执行的时间也高大10分钟。

然后我在hdfs文件里面看到这个表的每个分区里面都有20多个小文件&＃xff0c;每个文件都不大 300KB--1MB

之前的hive的参数&＃xff1a;
hive.merge.mapfiles&＃61;true
hive.merge.mapredfiles&＃61;false
hive.merge.rcfile.block.level&＃61;true
hive.merge.size.per.task&＃61;256000000
hive.merge.smallfiles.avgsize&＃61;16000000

hive.input.format&＃61;org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

mapred.max.split.size&＃61;256000000
mapred.min.split.size&＃61;1
mapred.min.split.size.per.node&＃61;1
mapred.min.split.size.per.rack&＃61;1

hive.merge.mapredfiles 这个指的是在Map-Reduce的任务结束时合并小文件

解决办法&＃xff1a;

1.修改参数hive.merge.mapredfiles&＃61;true

2.通过map_reduece的办法生成一张新的表此时生成的文件变成了每个分区一个文件

再次执行group by 发现效率得到了大大的提升。

小结&＃xff1a;

正确处理hive小文件是控制map数的一个重要环节

处理的不好会大大影响任务的执行效率
————————————————
版权声明&＃xff1a;本文为CSDN博主「ytp552200ytp」的原创文章&＃xff0c;遵循CC 4.0 by-sa版权协议&＃xff0c;转载请附上原文出处链接及本声明。
原文链接&＃xff1a;https://blog.csdn.net/ytp552200ytp/article/details/90748048

推荐阅读

case
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
jar
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
filter
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
filter
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
case
利用Apache POI高效读取Excel文件中的数据

本文介绍了如何利用Apache POI库高效读取Excel文件中的数据。通过实际测试，除了分数被转换为小数存储外，其他数据均能正确读取。若在使用过程中发现任何问题，请及时留言反馈，以便我们进行更新和改进。 ... [详细]

蜡笔小新 2024-11-04 20:52:26
case
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
case
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
jar
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
jar
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
jar
如何在MySQL中有效运用EXPLAIN命令进行查询优化

本文详细介绍了在MySQL中如何高效利用EXPLAIN命令进行查询优化。通过实例解析和步骤说明，文章旨在帮助读者深入理解EXPLAIN命令的工作原理及其在性能调优中的应用，内容通俗易懂且结构清晰，适合各水平的数据库管理员和技术人员参考学习。 ... [详细]

蜡笔小新 2024-11-10 15:18:39
jar
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30
uri
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
uri
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
jar
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50

泰坦尼雅牧民

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章