当前位置: 开发笔记 > 编程语言 > 正文

Spark读写压缩文件

作者：袁冠芳彦源 | 来源：互联网 | 2023-09-23 09:27

一、压缩文件读取spark自动根据文件后缀名判断压缩格式，不用特别指定二、写文件时压缩spark会加载Hadoop的默认的配置，如果hadoop中设置了压缩，spark没指定压缩则

一、压缩文件读取

spark 自动根据文件后缀名判断压缩格式，不用特别指定

二、写文件时压缩

spark会加载Hadoop的默认的配置，如果hadoop中设置了压缩，spark没指定压缩则会用hadoop的配置方式压缩；

spark中指定方式如下：

方法1：写文件时指定压缩格式

val sc = new SparkContext(new SparkConf()) val textFile = sc.textFile("") textFile.saveAsTextFile("/tmp/logs", classOf[SnappyCodec] ) //其他压缩方式： classOf[Lz4Codec] classOf[GzipCodec]

方法2：配置方式，全局可用

sc.hadoopConfiguration.set(FileOutputFormat.COMPRESS , "true") sc.hadoopConfiguration.set(FileOutputFormat.COMPRESS_CODEC, "org.apache.hadoop.io.compress.SnappyCodec") rdd.saveAsTextFile("/tmp/logs/test/aaCompress") //其他压缩方式： lz4: org.apache.hadoop.io.compress.Lz4Codec gzip: org.apache.hadoop.io.compress.GzipCodec

如果数据量很少不需要压缩只需设置不压缩： sc.hadoopConfiguration.set(FileOutputFormat.COMPRESS , &＃8220;false&＃8221;)

推荐阅读

buffer
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
web
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
config
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
regex
PHP 5.4.8 编译安装指南

本文详细介绍了如何在Linux环境下编译安装PHP 5.4.8，并配置为FastCGI模式运行。包括所需依赖包的安装、源代码下载、编译配置及启动服务等步骤。 ... [详细]

蜡笔小新 2024-11-28 10:19:51
web
MySQL 安装指南

本文档提供了详细的MySQL安装步骤，包括解压安装文件、选择安装类型、配置MySQL服务以及设置管理员密码等关键环节，帮助用户顺利完成MySQL的安装。 ... [详细]

蜡笔小新 2024-11-27 09:10:30
ip
详解Linux命令：mysqlshow的使用方法

本文详细介绍了如何使用Linux下的mysqlshow命令来查询MySQL数据库的相关信息，包括数据库、表以及字段的详情。通过本文的学习，读者可以掌握mysqlshow命令的基本语法及其常用选项。 ... [详细]

蜡笔小新 2024-11-24 11:25:08
web
Centos7 Tomcat9 安装笔记

centos7,tom ... [详细]

蜡笔小新 2024-11-17 18:15:16
config
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
ip
如何在压缩的.gz文件中高效查找特定字符串？ - Efficiently searching for specific strings within compressed .gz files

本文探讨了在不解压的情况下，如何高效地从包含文本文件的.gz压缩文件中查找特定字符串的方法。通过利用特定的工具和技术，可以在保持文件压缩状态的同时，快速定位和检索所需信息，提高处理大规模数据集时的效率和性能。 ... [详细]

蜡笔小新 2024-11-02 19:08:26
config
Node.js 环境变量配置指南

本文详细介绍了如何在不同操作系统中设置 Node.js 的环境变量，包括通过命令行、npm 脚本以及直接在代码中设置的方法。 ... [详细]

蜡笔小新 2024-11-28 16:54:54
config
hibernate报错

这个报错出现在userDao里面，sessionfactory没有注入。解决办法：spring整合Hibernate使用test测试时要把spring.xml和spring-hib ... [详细]

蜡笔小新 2024-11-28 16:52:44
timezone
MySQL 表分区详解及应用

本文详细介绍了MySQL表分区的概念、类型及其在实际应用中的实施方法，特别是针对Zabbix数据库的优化策略。 ... [详细]

蜡笔小新 2024-11-28 16:38:55
config
使用EF Core在.Net Core控制台应用中操作SQLite数据库

本文介绍如何利用Visual Studio 2019和Windows 10环境，通过Entity Framework Core（EF Core）实现对SQLite数据库的读写操作。项目源代码可从百度网盘下载。 ... [详细]

蜡笔小新 2024-11-28 11:01:19
function
ECharts图表绘制函数集

本文档提供了使用ECharts库创建柱状图、饼图和双折线图的JavaScript函数。每个函数都详细列出了参数说明，并通过示例展示了如何调用这些函数以生成不同类型的图表。 ... [详细]

蜡笔小新 2024-11-27 20:24:40
function
拖拉切割直线

拖拉切割直线 ... [详细]

蜡笔小新 2024-11-27 19:20:38

袁冠芳彦源

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

Spark读写压缩文件

一、 压缩文件读取

二、写文件时压缩

一、压缩文件读取