Hive数据压缩

作者：上海福千物流_573 | 来源：互联网 | 2023-08-12 03:28

Hive数据压缩文章目录Hive数据压缩MR支持的压缩编码压缩配置参数开启Map输出阶段压缩开启Reduce输出阶段压缩MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DE

Hive 数据压缩

文章目录

Hive 数据压缩
- MR支持的压缩编码
- 压缩配置参数
- 开启Map输出阶段压缩
- 开启Reduce输出阶段压缩

MR支持的压缩编码

压缩格式	工具	算法	文件扩展名	是否可切分
DEFAULT	无	DEFAULT	.deflate	否
Gzip	gzip	DEFAULT	.gz	否
bzip2	bzip2	bzip2	.bz2	是
LZO	lzop	LZO	.lzo	否
LZ4	无	LZ4	.lz4	否
Snappy	无	Snappy	.snappy	否

为了支持多种压缩/解压缩算法&＃xff0c;Hadoop引入了编码/解码器&＃xff0c;如下表所示

压缩格式	对应的编码/解码器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
LZ4	org.apache.hadoop.io.compress.Lz4Codec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

压缩性能的比较

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

http://google.github.io/snappy/

On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.
压缩250MB每秒、解压缩500MB每秒&＃xff0c;非常快。

压缩配置参数

要在Hadoop中启用压缩&＃xff0c;可以配置如下参数&＃xff08;mapred-site.xml文件中&＃xff09;&＃xff1a;

参数	默认值	阶段	建议
io.compression.codecs &＃xff08;在core-site.xml中配置&＃xff09;	org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.Lz4Codec	输入压缩	Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress	false	mapper输出	这个参数设为true启用压缩
mapreduce.map.output.compress.codec	org.apache.hadoop.io.compress.DefaultCodec	mapper输出	使用LZO、LZ4或snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress	false	reducer输出	这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec	org.apache.hadoop.io.compress. DefaultCodec	reducer输出	使用标准工具或者编解码器&＃xff0c;如gzip和bzip2
mapreduce.output.fileoutputformat.compress.type	RECORD	reducer输出	SequenceFile输出使用的压缩类型&＃xff1a;NONE和BLOCK

开启Map输出阶段压缩

开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。具体配置如下&＃xff1a;
案例实操&＃xff1a;
1&＃xff09;开启hive中间传输数据压缩功能

hive (default)>set hive.exec.compress.intermediate&＃61;true;

2&＃xff09;开启mapreduce中map输出压缩功能

hive (default)>set mapreduce.map.output.compress&＃61;true;

3&＃xff09;设置mapreduce中map输出数据的压缩方式

hive (default)>set mapreduce.map.output.compress.codec&＃61; org.apache.hadoop.io.compress.SnappyCodec;

4&＃xff09;执行查询语句

select count(1) from score;

开启Reduce输出阶段压缩

当Hive将输出写入到表中时&＃xff0c;输出内容同样可以进行压缩。属性hive.exec.compress.output控制着这个功能。用户可能需要保持默认设置文件中的默认值false&＃xff0c;这样默认的输出就是非压缩的纯文本文件了。用户可以通过在查询语句或执行脚本中设置这个值为true&＃xff0c;来开启输出结果压缩功能。
案例实操&＃xff1a;
1&＃xff09;开启hive最终输出数据压缩功能

hive (default)>set hive.exec.compress.output&＃61;true;

2&＃xff09;开启mapreduce最终输出数据压缩

hive (default)>set mapreduce.output.fileoutputformat.compress&＃61;true;

3&＃xff09;设置mapreduce最终数据输出压缩方式

hive (default)> set mapreduce.output.fileoutputformat.compress.codec &＃61; org.apache.hadoop.io.compress.SnappyCodec;

4&＃xff09;设置mapreduce最终数据输出压缩为块压缩

hive(default)>set mapreduce.output.fileoutputformat.compress.type&＃61;BLOCK;

5&＃xff09;测试一下输出结果是否是压缩文件

insert overwrite local directory &＃39;/export/servers/snappy&＃39; select * from score distribute by s_id sort by s_id desc;

推荐阅读

char
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
char
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
char
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
char
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
spring
Spring 切面配置中的切点表达式详解

本文介绍了如何在Spring框架中使用AspectJ风格的切面配置，详细解释了切点表达式的语法和常见示例，帮助开发者更好地理解和应用Spring AOP。 ... [详细]

蜡笔小新 2024-11-13 14:07:16
spring
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
window
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
char
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
python
macOS 上 Visual Studio Code 的安装与配置指南

Visual Studio Code (VSCode) 是一款功能强大的源代码编辑器，支持多种编程语言，具备丰富的扩展生态。本文将详细介绍如何在 macOS 上安装、配置并使用 VSCode。 ... [详细]

蜡笔小新 2024-11-12 19:45:55
list
CM 创始人分享：在 GitHub 上成为开源项目的守护者

本文由 CM 创始人 Steve Klabnik 发表在其个人博客上，详细介绍了他在 GitHub 上为 Rails 开源项目所做的贡献和经验，特别强调了如何有效管理和筛选项目中的问题。 ... [详细]

蜡笔小新 2024-11-12 11:29:56
install
单元测试：使用mocha和should.js搭建nodejs的单元测试

2019独角兽企业重金招聘Python工程师标准BDD测试利器：mochashould.js众所周知对于任何一个项目来说，做好单元测试都是必不可少 ... [详细]

蜡笔小新 2024-11-12 11:08:57
python
MySQL 数据迁移时 .frm 文件报错问题

本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-11-12 10:47:49
python
大型网站技术架构：核心原理与案例分析的思维导图解析

本文通过思维导图的形式，深入解析了大型网站技术架构的核心原理与实际案例。首先，探讨了大型网站架构的演化过程，从单体应用到分布式系统的转变，以及各阶段的关键技术和挑战。接着，详细分析了常见的大型网站架构模式，包括负载均衡、缓存机制、数据库设计等，并结合具体案例进行说明。这些内容不仅有助于理解大型网站的技术实现，还能为实际项目提供宝贵的参考。 ... [详细]

蜡笔小新 2024-11-11 16:13:07
go
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
go
易语言5.0静态编译测试版1正式推出，用户反馈积极

2009年12月28日，易语言公司正式推出了“易语言5.0静态编译测试版1”，这一版本标志着易语言在技术上的重要突破。与之前的4.x版本相比，5.0测试版1引入了静态编译功能，显著提升了程序的运行效率和安全性。此外，新版本还优化了代码生成机制，增强了语言的表达能力和兼容性。自发布以来，用户反馈非常积极，普遍认为新功能带来了更加流畅的开发体验。 ... [详细]

蜡笔小新 2024-11-11 14:40:53

上海福千物流_573

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章