cfilefile读写最大文件_轻如“鸿毛（Feather）”的文件格式却重于泰山

作者：手机用户2602920263 | 来源：互联网 | 2023-07-02 13:38

前言数据分析常用的数据格式无非就是json，txt，csv，excel或者是数据库文件，他们各有所长。其中用处最广泛的应属于

前言

数据分析常用的数据格式无非就是json&＃xff0c;txt&＃xff0c;csv&＃xff0c;excel 或者是数据库文件&＃xff0c;他们各有所长。其中用处最广泛的应属于csv&＃xff0c;因为它轻量&＃xff0c;占用的空间相比于excel会小很多。它的可读性也不错&＃xff0c;相比于txt 更适合数据分析&＃xff0c;尤其是基于pandas的数据分析。

今天我们推荐一个日常中&＃xff0c;小众但是很实用的文件格式 --Feather&＃xff0c;一句话定位它&＃xff1a;高速读写压缩二进制文件。

Feather 介绍

Feather 其实是Apache Arrow 项目中包含的一种数据格式&＃xff0c;但是由于其优异的性能&＃xff0c;该文件格式也被单独打包&＃xff0c;放在pip中进行安装。Pandas 也支持对Feather的读写&＃xff0c;所以只需安装pandas即可。

官方介绍Feather是一款高速&＃xff0c;轻量&＃xff0c;易于使用的二进制文件格式&＃xff0c;用于保存数据。它在设计时尽可能让API函数简单&＃xff0c;而且优化了读写速度。

官方链接&＃xff1a;Feather File Format

Pandas保存Feather 格式

秉承Feather的设计原则&＃xff0c;Pandas 对于Feather的读写也保持API函数极简。Pandas 中写Feather 只有一个函数&＃xff1a;

DataFrame.to_feather(**kwargs)

参数主要的有三个&＃xff1a;

path&＃xff1a; 需要保存的Feather文件路径
compression&＃xff1a; 是否压缩&＃xff0c;以及如何压缩&＃xff0c;支持{&＃39;zstd&＃39;, &＃39;uncompressed&＃39;, &＃39;lz4&＃39;} 三个选项
compression_level&＃xff1a;压缩水平&＃xff0c;注意lz4 不支持该参数

我们采用Uber数据集来进行测试。调用to_feather 函数将读取的dataframe保存为feather文件。这里我们采用不同的压缩格式进行保存。

import pandas as pd import os import time csv_file &＃61; &＃39;uber_raw.csv&＃39; csv_df &＃61; pd.read_csv(csv_file) feather_file &＃61; &＃39;uber.feather&＃39; csv_df.to_feather(feather_file)# save df to feather compressed_file &＃61; &＃39;compressed.feather&＃39; csv_df.to_feather(compressed_file,compression &＃61;&＃39;zstd&＃39;,compression_level &＃61;2)

我们通过os 来获取文件的大小&＃xff0c;并且对比原始文件计算压缩率。

print_file_size(csv_file) print_file_size(feather_file) print_file_size(compressed_file) standard_ratio &＃61; os.stat(feather_file).st_size/os.stat(csv_file).st_size print(f&＃39;standard feather compression ratio is {standard_ratio*100 :.1f}%&＃39;) non_standard_ratio &＃61; os.stat(compressed_file).st_size/os.stat(csv_file).st_size print(f&＃39;non_standard feather compression ratio is {non_standard_ratio*100 :.1f}%&＃39;)

结果如下。可以看到Feather相比于csv文件&＃xff0c;占用的容量显著减少&＃xff0c;压缩率可以达到22% 左右&＃xff08;压缩率越小越好&＃xff09;。

[uber_raw.csv] file size is 45.34 MB [uber.feather] file size is 16.07 MB [compressed.feather] file size is 10.30 MB standard feather compression ratio is 35.4% non_standard feather compression ratio is 22.7%

Feather文件读取性能测试

Pandas 读取Feather文件也很简单&＃xff0c;read_feather即可。位置参数为文件的路径&＃xff0c;可选参数columns用于指定需要读取哪些列。

pandas.read_feather(path, columns&＃61;None, use_threads&＃61;True)

Feather可以显著压缩文件&＃xff0c;压缩后的文件读取是否会慢呢&＃xff1f;是否需要先解压呢&＃xff1f;我们同样将csv和Feather进行读取性能测试。代码很简单&＃xff0c;多次读取&＃xff0c;比如20次&＃xff0c;然后统计每次读取的耗时。

start_epco &＃61; time.time() n_loops &＃61; 20 for i in range(n_loops):csv_df &＃61; pd.read_csv(csv_file) csv_time_usage &＃61; (time.time() - start_epco)/n_loops print(f&＃39;csv file read time usage is {csv_time_usage :.2f} s&＃39;)start_epco &＃61; time.time() n_loops &＃61; 20 for i in range(n_loops):feather_df &＃61; pd.read_feather(feather_file) f_time_usage &＃61; (time.time() - start_epco)/n_loops print(f&＃39;feather file read time usage is {f_time_usage :.2f} s&＃39;) print(f&＃39;feather time usage / csv time usage &＃61; {f_time_usage/csv_time_usage*100 :.1f}%&＃39;)

对比结果如下&＃xff0c;我们可以看到&＃xff0c;Feather的读取耗时不到csv的耗时的1/3。

csv file read time usage is 0.54 s feather file read time usage is 0.15 s feather time usage / csv time usage &＃61; 28.5%

Feather的正确用途

可以看到&＃xff0c;Feather 相比于csv在性能上有明显的优势&＃xff1a;

它适合于中型数据&＃xff08;GB为单位的数据&＃xff09;&＃xff0c;比如4GB的csv文件&＃xff0c;可能只占用700M feather 文件&＃xff0c;亲测
读写速度远胜于csv&＃xff0c;而且相比于数据库又具有便携的优势&＃xff0c;可以作为很好的中间媒介来传输数据&＃xff0c;比如从某个大型数据库中导出部分数据&＃xff0c;这也是我常用的方式。
类似于csv&＃xff0c;Feather也支持从源文件中仅仅读取所需的列&＃xff0c;这样可以减少内存的使用。这对于中型数据&＃xff08;GB)分析是非常有用的。比如本文中的案例&＃xff0c;可以仅仅读取前三列数据。

partial_df &＃61; pd.read_feather(path&＃61;feather_file,columns&＃61;["Date/Time","Lat","Lon"])

缺点嘛&＃xff0c;作者在发布V1时&＃xff0c;不建议将Feather作为长期的保存格式&＃xff0c;因为他觉得以后功能更会有变换&＃xff0c;但是目前feather已经更新到V2版本&＃xff0c;依然很稳定。

综上所述&＃xff0c;Feather 值得一试&＃xff0c;尤其是项目实践中作为中间载体。

推荐阅读

import
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
php
POI编程

POI编程1简介在我们实际的开发中，表现层的解决方案虽然有多样，但是IE浏览器已成为最多人使用的浏览器，因为大家都用Windows。在企业办公系统中 ... [详细]

蜡笔小新 2024-09-24 21:34:09
go
ppurl

Allegro总结:1.防焊层(SolderMask):又称绿油层,PCB非布线层,用于制成丝网印板,将不需要焊接的地方涂上防焊剂.在防焊层上预留的焊盘大小要比实际的焊盘大一些,其差值一般 ... [详细]

蜡笔小新 2023-10-17 18:30:39
go
我重新调整了上传的图片，但它仍然有很大的尺寸 - I resized uploaded images but it still have big size

Iusedtousethiscodetoresizetheuploadedimage,butwhenIcomparedthegeneratedimagewitho ... [详细]

蜡笔小新 2024-09-30 17:05:10
import
[pandas]高级使用

目录读写文本格式序列化使用数据库合并数据集重塑和轴向旋转数据转换读写文本格式CSV（Comma-SeparatedValues）格式的文件是指以纯文本形式存储的表格数据，这意味着不 ... [详细]

蜡笔小新 2024-09-30 11:32:48
import
Mysql MySqlBulkLoader在.NET平台下的批量插入

批量导入publicboolTranBatchImpo ... [详细]

蜡笔小新 2024-09-30 10:20:25
go
想搞清楚zlib,minizip,infozip,libbzip2这些库之间的关系.

是不是zlib是这些库的压缩算法的实现库，而这么多库它们只是在打包的时候使用了zlib进行压缩而已.而具体的打包格式就有ZIP，BZIP2,GZ之分?但是在我们在用gz压缩时候通常之前 ... [详细]

蜡笔小新 2024-09-29 17:00:30
go
阿里云大数据计算服务MaxCompute (原名 ODPS)

MaxCompute是阿里EB级计算平台，经过十年磨砺，它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute做了哪些工作，这些工作背后的原因是什 ... [详细]

蜡笔小新 2024-09-28 17:30:24
import
黑马程序员——OC语言——内存管理

———Java培训、Android培训、iOS培训、.Net培训、期待与您交流！———一、引用计数器每个OC对象都有自己的引用计数器，表示“对象被引用 ... [详细]

蜡笔小新 2024-09-28 12:42:08
config
org.apache.hadoop.mapreduce.lib.input.MultipleInputs.addInputPath()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.mapreduce.lib.input.MultipleInputs.addInputPath()方法的一些代码 ... [详细]

蜡笔小新 2024-09-28 10:57:44
go
使用 Python 中的 Plotly 绘制三维网格图

使用Python中的Plotly绘制三维网格图原文:ht ... [详细]

蜡笔小新 2024-09-28 04:18:17
php
java – 将带有二进制数据的byte []转换为String

我有二进制格式的数据(十六进制：803bc8870a89),我需要将其转换为字符串,以便通过Jackcess在MSAccess数据库中保存二进制数据.我知道,我不认为在Java中使用 ... [详细]

蜡笔小新 2024-09-27 18:50:34
php
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
testing
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
function
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39

手机用户2602920263

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章