pyspark操作hive分区表及.gz.parquet和part00000文件压缩问题

作者：坏坏纯1990_440 | 来源：互联网 | 2023-07-27 20:53

这篇文章主要介绍了pyspark操作hive分区表及.gz.parquet和part-00000文件压缩问题,针对问题整理了spark操作hive表的几种方式，

pyspark 操作hive表

pyspark 操作hive表，hive分区表动态写入；最近发现spark动态写入hive分区，和saveAsTable存表方式相比，文件压缩比大约 4:1。针对该问题整理了 spark 操作hive表的几种方式。

1> saveAsTable写入

saveAsTable(self, name, format=None, mode=None, partitiOnBy=None, **options)

示例：

df.write.saveAsTable("表名",mode="overwrite")

注意：

1、表不存在则创建表，表存在全覆盖写入；
2、表存在，数据字段有变化，先删除后重新创建表；
3、当正在存表时报错或者终止程序会导致表丢失；
4、数据默认采用parquet压缩，文件名称 part-00000-5efbfc08-66fe-4fd1-bebb-944b34689e70.gz.parquet

数据文件在hdfs上显示：

2> insertInto写入

insertInto(self, tableName, overwrite=False):
示例：

# append 写入
df.repartition(1).write.partitionBy("dt").insertInto("表名")
# overwrite 写入
df.repartition(1).write.partitionBy("dt").insertInto("表名",overwrite=True)
# 动态分区使用该方法

注意：

1、df.write.mode("overwrite").partitionBy("dt").insertInto("表名") 不会覆盖数据
2、需要表必须存在且当前DF的schema与目标表的schema必须一致
3、插入的文件不会压缩；文件以part-00....结尾。文件较大

数据文件在hdfs上显示：

2.1> 问题说明

两种方式存储数据量一样的数据，磁盘文件占比却相差很大，.gz.parquet 文件相比 part-00000文件要小很多。想用spark操作分区表，又想让文件压缩，百度了一些方式，都没有解决。
从stackoverflow中有一个类似的问题 Spark compression when writing to external Hive table 。用里面的方法并没有解决。
最终从hive表数据文件压缩角度思考，问题得到解决。

hive 建表指定压缩格式
下面是hive parquet的几种压缩方式

-- 使用snappy
CREATE TABLE if not exists ods.table_test(
    id string,
    open_time string
	)
COMMENT "测试"
PARTITIONED BY (`dt` string COMMENT "按天分区")
row format delimited fields terminated by "01" 
STORED AS PARQUET 
TBLPROPERTIES ("parquet.compression"="SNAPPY");

-- 使用gzip
CREATE TABLE if not exists ods.table_test(
    id string,
    open_time string
	)
COMMENT "测试"
PARTITIONED BY (`dt` string COMMENT "按天分区")
row format delimited fields terminated by "01" 
STORED AS PARQUET 
TBLPROPERTIES ("parquet.compression"="GZIP");
 
-- 使用uncompressed
CREATE TABLE if not exists ods.table_test(
    id string,
    open_time string
	)
COMMENT "测试"
PARTITIONED BY (`dt` string COMMENT "按天分区")
row format delimited fields terminated by "01" 
STORED AS PARQUET 
TBLPROPERTIES ("parquet.compression"="UNCOMPRESSED");

 
-- 使用默认
CREATE TABLE if not exists ods.table_test(
    id string,
    open_time string
	)
COMMENT "测试"
PARTITIONED BY (`dt` string COMMENT "按天分区")
row format delimited fields terminated by "01" 
STORED AS PARQUET;
 
-- 设置参数 set parquet.compression=SNAPPY;

2.2> 解决办法

建表时指定TBLPROPERTIES，采用gzip 压缩
示例：

drop table if exists ods.table_test
CREATE TABLE if not exists ods.table_test(
id string,
open_time string
)
COMMENT "测试"
PARTITIONED BY (`dt` string COMMENT "按天分区")
row format delimited fields terminated by "01" 
STORED AS PARQUET 
TBLPROPERTIES ("parquet.compression"="GZIP");

执行效果

数据文件在hdfs上显示：

可以看到文件大小占比已经和 *.gz.parquet 文件格式一样了

3>saveAsTextFile写入直接操作文件saveAsTextFile(self, path, compressiOnCodecClass=None)
该方式通过rdd 以文件形式直接将数据存储在hdfs上。
示例：

rdd.saveAsTextFile("hdfs://表全路径")

文件操作更多方式见官方文档

到此这篇关于pyspark操作hive分区表及.gz.parquet和part-00000文件压缩问题的文章就介绍到这了,更多相关pyspark hive分区表parquet内容请搜索编程笔记以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程笔记！

推荐阅读

schema
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
web
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
default
sh cca175problem03evolveavroschema.sh

sh cca175problem03evolveavroschema.sh ... [详细]

蜡笔小新 2024-10-25 14:18:50
web
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51
callback
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
callback
利用MATLAB实现“逢七必过”游戏规则与数字图像处理技术的应用——第4章深入解析

在《数字图像处理及应用（MATLAB）第4章》中，详细探讨了“逢七必过”游戏规则的实现方法，并结合数字图像处理技术进行了深入分析。本章通过丰富的实例和代码示例，展示了如何利用MATLAB实现这一游戏规则，并介绍了数字图像处理的基本原理和技术应用。内容涵盖了图像增强、滤波、边缘检测等多个方面，为读者提供了全面的技术支持和实践指导。 ... [详细]

蜡笔小新 2024-11-11 11:46:42
callback
提升视觉效果：Unity3D中的HDR与Bloom技术（高动态范围成像与光线散射）

提升视觉效果：Unity3D中的HDR与Bloom技术（高动态范围成像与光线散射） ... [详细]

蜡笔小新 2024-11-10 10:16:00
process
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
const
深入解析C语言中的动态规划算法：以背包问题为例

本文深入探讨了C语言中动态规划算法的应用，以经典的背包问题为例进行详细解析。通过实例分析，展示了如何利用动态规划解决复杂优化问题，并提供了高效的代码实现方法。文章不仅涵盖了算法的基本原理，还讨论了其在实际编程中的应用技巧和优化策略，为读者提供了全面的理解和实践指导。 ... [详细]

蜡笔小新 2024-11-06 16:16:41
version
Spring框架中的面向切面编程（AOP）技术详解

面向切面编程（AOP）是Spring框架中的关键技术之一，它通过将横切关注点从业务逻辑中分离出来，实现了代码的模块化和重用。AOP的核心思想是将程序运行过程中需要多次处理的功能（如日志记录、事务管理等）封装成独立的模块，即切面，并在特定的连接点（如方法调用）动态地应用这些切面。这种方式不仅提高了代码的可维护性和可读性，还简化了业务逻辑的实现。Spring AOP利用代理机制，在不修改原有代码的基础上，实现了对目标对象的增强。 ... [详细]

蜡笔小新 2024-11-04 17:23:10
php
技术分享：深入解析GestureDetector手势识别机制

技术分享：深入解析GestureDetector手势识别机制 ... [详细]

蜡笔小新 2024-11-04 13:54:00
default
探索阿里云RDS中MySQL的高效压缩存储引擎TokuDB应用

在过去，我曾使用过自建MySQL服务器中的MyISAM和InnoDB存储引擎（也曾尝试过Memory引擎）。今年初，我开始转向阿里云的关系型数据库服务，并深入研究了其高效的压缩存储引擎TokuDB。TokuDB在数据压缩和处理大规模数据集方面表现出色，显著提升了存储效率和查询性能。通过实际应用，我发现TokuDB不仅能够有效减少存储成本，还能显著提高数据处理速度，特别适用于高并发和大数据量的场景。 ... [详细]

蜡笔小新 2024-11-04 11:36:52
ip
深入解析：RKHunter与AIDE在入侵检测中的应用与优势

本文深入探讨了RKHunter与AIDE在入侵检测领域的应用及其独特优势。通过对比分析，详细阐述了这两种工具在系统完整性验证、恶意软件检测及日志文件监控等方面的技术特点和实际效果，为安全管理人员提供了有效的防护策略建议。 ... [详细]

蜡笔小新 2024-10-30 11:50:20
ip
优化后的标题：利用Hive分析用户最长连续登录天数

本文介绍了如何使用Hive分析用户最长连续登录天数的方法。首先对数据进行排序，然后计算相邻日期之间的差值，接着按用户ID分组并累加连续登录天数，最后求出每个用户的最大连续登录天数。此外，还探讨了该方法在其他领域的应用，如股票市场中最大连续涨停天数的分析。 ... [详细]

蜡笔小新 2024-10-27 21:47:17
php
深入浅出解析HTTP协议的核心功能与应用

前言——协议是指预先设定的通信规则，确保双方能够按照既定标准进行有效沟通，从而实现准确的信息交换。例如，驯兽师通过拍手使动物坐下，这实际上是一种预设的协议。本文将详细探讨HTTP协议的核心功能及其广泛应用，解析其在现代网络通信中的重要作用。 ... [详细]

蜡笔小新 2024-10-26 18:47:54

坏坏纯1990_440

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

pyspark操作hive分区表及.gz.parquet和part00000文件压缩问题

目录

pyspark 操作hive表