Hive实践分享：存储和压缩的坑

作者：林立霞61556 | 来源：互联网 | 2023-08-27 19:08

码代码，写程序，总是麻烦一大堆。Hive在存储和压缩的时候，总是避免不了踩进坑里面。今天，我们一起来看看一位大神Hive实践分享：存储和压缩的坑。这位大神最近在阿里云跑数据，想分析

码代码，写程序，总是麻烦一大堆。Hive在存储和压缩的时候，总是避免不了踩进坑里面。今天，我们一起来看看一位大神Hive实践分享：存储和压缩的坑。

这位大神最近在阿里云跑数据，想分析一下借款用户的行为路径轨迹，由于数据量级很大，而且行为数据很脏，所以需要将加工数据导出到本地文件系统，再下载到电脑上！结果发现数据是二进制形式压缩，根本没法看。

大家都知道，由于集群资源有限，我们一般都会针对数据文件的「存储结构」和「压缩形式」进行配置优化。结合实际查看以后，发现集群的文件存储格式为Parquet，一种列式存储引擎，类似的还有ORC。而文件的压缩形式为Snappy。具体的操作形式如下：①创建Parquet结构的表（Hive 0.13 and later）：CREATE TABLE CRM.DEMO(A INT) STORED AS PARQUET ;② 确认表的文件存储格式：desc formatted crm.demo;结果输出如下# Storage Information SerDe Library:org.apache.hadoop.hive.ql.io .parquet.serde.ParquetHiveSerDe InputFormat:org.apache.hadoop.hive.ql.io .parquet.MapredParquetInputFormat OutputFormat:org.apache.hadoop.hive.ql.io

.parquet.MapredParquetOutputFormat ③ 创建Snappy压缩格式的Parquet结构的表(待考察)：ALTER TABLE crm.demo SET TBLPROPERTIES (&＃8216;parquet.compression&＃8217;=&＃8217;SNAPPY&＃8217;) ;或，写入时SET parquet.compression=SNAPPY ;相对来说，还是比较简单，更多关于压缩内容的，参考这篇文章：链接：Hive压缩说明 &＃8211; CSDN博客回到最初的问题，如果是按Snappy压缩的格式，这份用户行为数据没办法分析了，因此有两种办法去解决：① 安装Snappy的解压工具可自行百度（链接：压缩软件Snappy的安装 &＃8211; 一心行走 &＃8211; 博客园），由于没有权限，所以这条路行不通；② 更改数据的压缩格式最初我试了一下更改Parquet格式表的压缩格式，但是没有用！因为我最后是需要将查询数据导出到本地文件系统，如下语句所示：insert overwrite local directory &＃8216;/home/etl/tmp/data&＃8217; select *from crm.demo所以，通过这样的形式得到的数据，压缩格式依然是. Snappy。因此，这里就需要配置Hive执行过程中的中间数据和最终数据的压缩格式。如MapReduce的shuffle阶段对mapper产生的中间结果数据压缩：hive> set mapred.map.output.compression.codec;mapred.map.output.compression.codec=org.apache.hadoop.io .compress.SnappyCodec如对最终生成的Hive表的数据压缩：hive> set mapred.output.compression.codec;mapred.output.compression.codec=org.apache.hadoop.io .compress.SnappyCodec这里，我们要设置结果表数据的压缩格式，语句如下：set mapred.output.compression.codec=org.apache.hadoop.io .compress.GzipCodec;最终的结果就是.gz 的压缩格式-rw-r&＃8211;r&＃8211; 1 etl etl 342094 May 10 11:13 000000_0.gz最后，我们直接下载到电脑本地，直接解压就可以通过Excel分析用户行为路径数据了。

结合以上信息看来，我们可以总结出一点经验：

从Hive应用层的角度来说，关于数据文件的「存储结构」和「压缩形式」，这两个点我们不需要关心，只是在导出数据的时候需要结合文件大小，以及数据类型去设置合适的压缩格式。

从Hive底层维护的角度来说，涉及到各种各样的「存储结构」和「压缩形式」，都需要开发者去研究和调整，这样才能保证集群上的文件在「时间」和「空间」上相对平衡。

对大数据感兴趣的小伙伴们可以到科多大数据进行咨询哟~

推荐阅读

hadoop
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
hadoop
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
version
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
version
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
version
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
client
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
client
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
c语言
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
main
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
instance
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
version
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
version
如何提升Python处理约1GB数据集时的运行效率？

如何提升Python处理约1GB数据集时的运行效率？本文探讨了在后端开发中使用Python处理大规模数据集的优化方法。通过分析常见的性能瓶颈，介绍了多种提高数据处理速度的技术，包括使用高效的数据结构、并行计算、内存管理和代码优化策略。此外，文章还提供了在Ubuntu环境下配置和测试这些优化方案的具体步骤，适用于从事推荐系统等领域的开发者。 ... [详细]

蜡笔小新 2024-10-27 02:13:48
version
《Hadoop》系列深度探索（三）：物联网技术综述与应用前景

在前一篇文章《Hadoop》系列之“踽踽独行”（二）中，我们详细探讨了云计算的核心概念。本章将重点转向物联网技术，全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈，我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外，还将讨论物联网面临的挑战，如数据安全和隐私保护等问题，并展望其在未来技术融合中的重要角色。 ... [详细]

蜡笔小新 2024-11-03 18:20:22
version
hadoop3.1.2 first programdefault wordcount (Mac)

hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]

蜡笔小新 2024-10-15 11:11:55

林立霞61556

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章