当前位置: 开发笔记 > 编程语言 > 正文

Python多进程高效读取超大文件的技巧

作者：兰花m123_680 | 来源：互联网 | 2024-11-14 10:59

本文详细介绍了如何使用Python的多进程技术来高效地分块读取超大文件，并将其输出为多个文件。通过这种方式，可以显著提高读取速度和处理效率。

本文详细介绍了如何使用Python的多进程技术来高效地分块读取超大文件，并将其输出为多个文件。通过这种方式，可以显著提高读取速度和处理效率。具体内容如下：

读取超大的文本文件时，使用多进程分块读取方法，可以将每个分块单独输出成文件。

# -*- coding: UTF-8 -*-

import os

import datetime

from multiprocessing import Process, Queue, Array, RLock

"""

多进程分块读取文件

"""

WORKERS = 4

BLOCKSIZE = 100000000

FILE_SIZE = 0

def get_file_size(file_path):

"""

获取文件的大小

"""

global FILE_SIZE

with open(file_path, 'r') as f:

f.seek(0, os.SEEK_END)

FILE_SIZE = f.tell()

def process_block(pid, array, file_path, rlock):

"""

处理文件块的函数

Args:

pid: 进程编号

array: 进程间共享数组，用于标记各进程所读的文件块结束位置

file_path: 要读取的文件路径

"""

global FILE_SIZE

with open(file_path, 'r') as f:

while True:

rlock.acquire()

start_position = max(array)

end_position = min(start_position + BLOCKSIZE, FILE_SIZE)

array[pid] = end_position

rlock.release()

if start_position == FILE_SIZE:

print(f'Process {pid} finished')

break

if start_position != 0:

f.seek(start_position)

f.readline() # 读取并丢弃一行，防止行被截断

with open(f'/data/output/block_{pid}_{start_position}.txt', 'w') as out_f:

while f.tell()

line = f.readline()

out_f.write(line)

def main():

global FILE_SIZE

print(datetime.datetime.now().strftime('%Y/%m/%d %H:%M:%S'))

file_path = '/data/large_file.txt'

get_file_size(file_path)

print(f'File size: {FILE_SIZE} bytes')

rlock = RLock()

array = Array('l', [0] * WORKERS, lock=rlock)

processes = []

for i in range(WORKERS):

p = Process(target=process_block, args=(i, array, file_path, rlock))

processes.append(p)

p.start()

for p in processes:

p.join()

print(datetime.datetime.now().strftime('%Y/%m/%d %H:%M:%S'))

if __name__ == '__main__':

main()

希望本文所述对大家Python程序设计有所帮助。

推荐阅读

process
python并发打开网页_python并发_线程

关于进程的复习：#管道#数据的共享Managerdictlist#进程池#cpu个数1#retmap(func,iterable)#异步自带close和join#所有 ... [详细]

蜡笔小新 2024-11-17 13:24:48
process
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
process
开发技巧: Effective Java第三版——优先选用Collection而非Stream作为方法返回类型

在Effective Java第三版中，建议在方法返回类型中优先考虑使用Collection而非Stream，以提高代码的灵活性和兼容性。 ... [详细]

蜡笔小新 2024-11-19 15:31:16
web
解决UIScrollView上Webview点击图片后无法立即滑动的问题

本文探讨了在UIScrollView上嵌入Webview时遇到的一个常见问题：点击图片放大并返回后，Webview无法立即滑动。我们将分析问题原因，并提供有效的解决方案。 ... [详细]

蜡笔小新 2024-11-18 21:13:13
process
深入解析Python进程间通信：Queue与Pipe的应用

本文详细探讨了Python中进程间通信的两种常用方法——Queue和Pipe，并通过具体示例介绍了它们的基本概念、使用方法及注意事项。 ... [详细]

蜡笔小新 2024-11-18 12:41:55
less
将图像平移到画布中心python_python – Tkinter画布缩放移动/平移

高级缩放示例.就像谷歌地图一样.它仅缩放图块,但不缩放整个图像.因此,缩放的瓷砖占据了恒定的记忆,并且不会为大型缩放图像调整大小的图像.对于简化的缩放示例lookhere.在Win ... [详细]

蜡笔小新 2024-11-20 15:47:04
lua
不同的编程语言是如何读写数据的

每种编程语言都有其独特的完成任务的方式，这也说明了为什么有这么多语言可供选择。在JimHall的《不同的编程语言如何完成相同的事情》文章中，他演示了13种不同的语言如何使用不同的语 ... [详细]

蜡笔小新 2024-11-20 11:24:13
process
详解Android中Binder.getCallingPid()方法及其应用实例

本文详细介绍了`android.os.Binder.getCallingPid()`方法的功能和应用场景，并提供了多个实际的代码示例。通过这些示例，开发者可以更好地理解如何在不同的开发场景中使用该方法。 ... [详细]

蜡笔小新 2024-11-19 20:22:56
process
Java代码保护与混淆：ProGuard详解

在Java开发中，保护代码安全是一个重要的课题。由于Java字节码容易被反编译，因此使用代码混淆工具如ProGuard变得尤为重要。本文将详细介绍如何使用ProGuard进行代码混淆，以及其基本原理和常见问题。 ... [详细]

蜡笔小新 2024-11-18 16:46:17
process
所在位置|室友_Python+OpenCv实现图像边缘检测（滑动调节阈值）

所在位置|室友_Python+OpenCv实现图像边缘检测（滑动调节阈值） ... [详细]

蜡笔小新 2024-11-18 15:40:40
process
使用Bash脚本将Medium文章迁移到个人博客[教程]

尽管Medium是一个优秀的发布平台，但在其之外拥有自己的博客仍然非常重要。这不仅提供了另一个与读者互动的渠道，还能确保您的内容安全。本文将介绍如何使用Bash脚本将Medium文章迁移到个人博客。 ... [详细]

蜡笔小新 2024-11-18 11:26:14
process
使用Java ProcessBuilder类调用外部程序的方法详解

在Java开发中，如何利用ProcessBuilder类调用外部程序是一个常见的需求。本文将详细介绍ProcessBuilder类的使用方法，并提供示例代码帮助你更好地理解和应用。 ... [详细]

蜡笔小新 2024-11-17 23:40:41
process
Spring Boot + RabbitMQ 消息确认机制详解

本文详细介绍如何在 Spring Boot 项目中使用 RabbitMQ 的消息确认机制，包括消息发送确认和消息接收确认，帮助开发者解决在实际操作中可能遇到的问题。 ... [详细]

蜡笔小新 2024-11-16 20:54:38
web
Bootstrap Paginator 分页插件详解与应用

本文深入探讨了Bootstrap Paginator这款流行的JavaScript分页插件，提供了详细的使用指南和示例代码，旨在帮助开发者更好地理解和利用该工具进行高效的数据展示。 ... [详细]

蜡笔小新 2024-11-20 13:39:53
web
深入探讨C++中的GCD函数与队列

在iOS开发中，多线程技术的应用非常广泛，能够高效地执行多个调度任务。本文将重点介绍GCD（Grand Central Dispatch）在多线程开发中的应用，包括其函数和队列的实现细节。 ... [详细]

蜡笔小新 2024-11-16 14:59:50

兰花m123_680

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章