Python中使用PyPDF2在内存里高效合并PDF文件

作者：左伊 | 来源：互联网 | 2024-12-17 18:39

本文探讨了如何利用Python的PyPDF2库在内存中高效地合并多个PDF文件，并讨论了相关的内存管理问题及优化策略。

在 Python 环境下，我需要将大量小型 PDF 文件（例如500个单页PDF，每个文件约400KB）有效合并成一个大文件。这些 PDF 文件作为 BytesIO 对象存储在内存中，形成一个列表：

pdf_list = [pdf1_fileobj, pdf2_fileobj, ..., pdfn_fileobj]

这里的每个 pdf_fileobj 都是一个 BytesIO 类型的对象。理论上，这些文件占用的总内存大约为200MB。

然而，在实际操作过程中，我发现即使在执行完合并操作后，程序的内存使用峰值达到了近700MB，远远超过了预期。通过调用 gc.collect() 手动触发垃圾回收，内存使用量可以降低至350MB左右。这引发了一系列疑问：为何需要手动进行垃圾回收？是否存在更有效的内存管理方法？

下面是用于合并 PDF 文件的示例代码：

import PyPDF2
import io
import resource  # 用于调试

def merge_pdfs(pdf_files):
    ''' 在内存中合并 PDF 文件 '''
    merger = PyPDF2.PdfFileMerger()
    for file in pdf_files:
        merger.append(file)
    output = io.BytesIO()
    merger.write(output)
    merger.close()
    output.seek(0)
    return output

merged_pdf = merge_pdfs(pdf_list)
# 输出最大内存使用情况
print('Memory usage: %s (kB)' % resource.getrusage(resource.RUSAGE_SELF).ru_maxrss)

问题总结：

上述代码为何需要接近700MB的内存来处理总计200MB的数据？
在相关变量超出作用域后，为何还需手动运行垃圾回收以释放内存？
使用 BytesIO 和 merger.write(output) 方法是否适合此类场景？

解决方案建议：

内存使用过高可能是由于 .append 方法和 merger.write(output) 过程中创建了额外的流对象，导致内存占用翻倍。
需要手动运行垃圾回收是因为 PyPDF2 库中存在的内存泄漏问题，某些对象未能被自动回收。
为了优化内存使用，可以考虑采用分批处理的方式，即每次合并一部分文件并临时保存至磁盘，随后清空这部分文件的内存占用，继续处理剩余部分。

推荐阅读

tree
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
php
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
php
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
stream
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
merge
计算机图形学实训：OpenGL入门与直线光栅化算法

本教程涵盖OpenGL基础操作及直线光栅化技术，包括点的绘制、简单图形绘制、直线绘制以及DDA和中点画线算法。通过逐步实践，帮助读者掌握OpenGL的基本使用方法。 ... [详细]

蜡笔小新 2024-12-26 12:24:25
php
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
js
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
php
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
php
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
php
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
window
Objective-C 编程中的关键语法点

本文探讨了 Objective-C 中的一些重要语法特性，包括 goto 语句、块（block）的使用、访问修饰符以及属性管理等。通过实例代码和详细解释，帮助开发者更好地理解和应用这些特性。 ... [详细]

蜡笔小新 2024-12-26 19:42:38
php
基于双Xilinx Kintex-7 FPGA的高性能6U VPX存储板

VPX611是北京青翼科技推出的一款采用6U VPX架构的高性能数据存储板。该板卡搭载两片Xilinx Kintex-7系列FPGA作为主控单元，内置RAID控制器，支持多达8个mSATA盘，最大存储容量可达8TB，持续写入带宽高达3.2GB/s。 ... [详细]

蜡笔小新 2024-12-26 11:41:58
request
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24
request
开发笔记:2020 BJDCTF Re encode

开发笔记:2020 BJDCTF Re encode ... [详细]

蜡笔小新 2024-12-24 09:26:02
stream
HTTP请求与响应机制详解

本文深入探讨了HTTP请求和响应对象的使用，详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外，还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]

蜡笔小新 2024-12-23 20:40:08

左伊

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章