python操作pdf文件

作者：溪谷小兵 | 来源：互联网 | 2023-10-11 15:08

安装模块pipinstallpdfplumberpipinstallPyPDF2pipinstallpypwin32pdf文件读取path:pdf的文件路径pdf

安装模块

pip install pdfplumber pip install PyPDF2 pip install pypwin32

pdf 文件读取

""" path: pdf的文件路径 pdfplumber.open(path): 文件打开读取 _pdf.pages&＃xff1a; 获取pdf总页数 _pdf.pages[i].extract_text() &＃xff1a; 获取每页的pdf的内容 """def get_pdf_content(path):_pdf &＃61; pdfplumber.open(path)pages &＃61; len(_pdf.pages) # _pdf.pages 输出的是列表数据all_content &＃61; [_pdf.pages[i].extract_text() for i in range(pages)]return all_contentif __name__ &＃61;&＃61; &＃39;__main__&＃39;:data &＃61; get_pdf_content(&＃39;test.pdf&＃39;)print(data[0])

读取pdf中的表格数据

def get_pdf_tables(path):_pdf &＃61; pdfplumber.open(path)pages &＃61; len(_pdf.pages) # _pdf.pages 输出的是列表数据all_table &＃61; []for i in range(pages):# 读取每页pdf 中含有表格的数据for j in _pdf.pages[i].extract_tables():# 获取每页table&＃xff0c; 每一行的数据&＃xff0c;content &＃61; [k for k in j if &＃39;&＃39; not in k]all_table.append(content)return all_table

获取pdf中的table数据&＃xff0c; 并写入表格

import pdfplumber import pandas as pddef get_pdf_tables(path):_pdf &＃61; pdfplumber.open(path)pages &＃61; len(_pdf.pages) # _pdf.pages 输出的是列表数据all_table &＃61; []for i in range(pages):# 读取每页pdf 中含有表格的数据for j in _pdf.pages[i].extract_tables():# 获取每页table&＃xff0c; 每一行的数据&＃xff0c;content &＃61; [k for k in j if &＃39;&＃39; not in k]all_table.append(content)return all_table# 获取pdf 中的表格数据&＃xff0c; 并写入pdf数据 def write_to_excel(all_tables):writer &＃61; pd.ExcelWriter("表格数据.xlsx")for index, content in enumerate(all_tables):name &＃61; "pd_{}".format(index)df &＃61; pd.DataFrame(content)df.to_excel(writer, sheet_name&＃61;name, encoding&＃61;"gbk")# 最后保存写入&＃xff0c;并释放writer.save()writer.close() if __name__ &＃61;&＃61; &＃39;__main__&＃39;:data &＃61; get_pdf_tables(&＃39;test.pdf&＃39;)write_to_excel(data)

推荐阅读

get
CLIfe：我的高效开发环境配置

在开发过程中，我最初也依赖于功能全面但操作繁琐的集成开发环境（IDE），如Borland Delphi 和 Microsoft Visual Studio。然而，随着对高效开发的追求，我逐渐转向了更加轻量级和灵活的工具组合。通过 CLIfe，我构建了一个高度定制化的开发环境，不仅提高了代码编写效率，还简化了项目管理流程。这一配置结合了多种强大的命令行工具和插件，使我在日常开发中能够更加得心应手。 ... [详细]

蜡笔小新 2024-11-07 18:32:20
sum
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
sum
探索偶数次幂二项式系数的求和方法及其数学意义

探索偶数次幂二项式系数的求和方法及其数学意义 ... [详细]

蜡笔小新 2024-11-05 15:38:39
php
利用树莓派畅享落网电台音乐体验

最近重新拾起了闲置已久的树莓派，这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多，我决定将其重新启用。恰逢落网电台进行了改版，回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐，便萌生了同样的想法。通过一番调试，终于实现了在树莓派上流畅播放落网电台音乐的功能，带来了全新的音乐享受体验。 ... [详细]

蜡笔小新 2024-11-05 09:20:37
list
利用Apache POI高效读取Excel文件中的数据

本文介绍了如何利用Apache POI库高效读取Excel文件中的数据。通过实际测试，除了分数被转换为小数存储外，其他数据均能正确读取。若在使用过程中发现任何问题，请及时留言反馈，以便我们进行更新和改进。 ... [详细]

蜡笔小新 2024-11-04 20:52:26
sum
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
php
掌握PHP编程必备知识与技巧——全面教程

掌握PHP编程必备知识与技巧——全面教程在当今的PHP开发中，了解并运用最新的技术和最佳实践至关重要。本教程将详细介绍PHP编程的核心知识与实用技巧。首先，确保你正在使用PHP 5.3或更高版本，最好是最新版本，以充分利用其性能优化和新特性。此外，我们还将探讨代码结构、安全性和性能优化等方面的内容，帮助你成为一名更高效的PHP开发者。 ... [详细]

蜡笔小新 2024-11-03 16:38:49
range
如何在C#中通过选择ComboBox项从MySQL数据库中检索数据值

本文探讨了如何在C#应用程序中通过选择ComboBox项从MySQL数据库中检索数据值。具体介绍了在事件处理方法 `comboBox2_SelectedIndexChanged` 中可能出现的常见错误，并提供了详细的解决方案和优化建议，以确保数据能够正确且高效地从数据库中读取并显示在界面上。此外，还讨论了连接字符串的配置、SQL查询语句的编写以及异常处理的最佳实践，帮助开发者避免常见的陷阱并提高代码的健壮性。 ... [详细]

蜡笔小新 2024-11-07 19:18:29
substring
详解Android连接MySQL数据库的操作流程及技术要点

在Android应用开发中，实现与MySQL数据库的连接是一项重要的技术任务。本文详细介绍了Android连接MySQL数据库的操作流程和技术要点。首先，Android平台提供了SQLiteOpenHelper类作为数据库辅助工具，用于创建或打开数据库。开发者可以通过继承并扩展该类，实现对数据库的初始化和版本管理。此外，文章还探讨了使用第三方库如Retrofit或Volley进行网络请求，以及如何通过JSON格式交换数据，确保与MySQL服务器的高效通信。 ... [详细]

蜡笔小新 2024-11-07 19:11:13
sum
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
list
Python编程实现足球联赛赛程安排的策略与简易示例分析

每年，意甲、德甲、英超和西甲等各大足球联赛的赛程表都是球迷们关注的焦点。本文通过 Python 编程实现了一种生成赛程表的方法，该方法基于蛇形环算法。具体而言，将所有球队排列成两列的环形结构，左侧球队对阵右侧球队，首支队伍固定不动，其余队伍按顺时针方向循环移动，从而确保每场比赛不重复。此算法不仅高效，而且易于实现，为赛程安排提供了可靠的解决方案。 ... [详细]

蜡笔小新 2024-11-07 17:41:40
get
处理 `requests` 库时遇到 `requests.exceptions.SSLError: HTTPSConnectionPool` 错误的解决方案

在使用 `requests` 库进行 HTTP 请求时，如果遇到 `requests.exceptions.SSLError: HTTPSConnectionPool` 错误，通常是因为 SSL 证书验证失败。解决这一问题的方法包括：检查目标网站的 SSL 证书是否有效、更新本地的 CA 证书库、禁用 SSL 验证（不推荐用于生产环境）或使用自定义的 SSL 上下文。此外，确保 `requests` 库和相关依赖项已更新到最新版本，以避免潜在的安全漏洞。 ... [详细]

蜡笔小新 2024-11-05 16:12:45
sum
利用Python进行学生学业表现评估与成绩预测分析

利用Python进行学生学业表现评估与成绩预测分析 ... [详细]

蜡笔小新 2024-11-05 14:56:16
sum
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
get
Android系统支持的图像格式及其版本兼容性（涵盖存储、HTTP传输、相机功能、SparseArray应用与系统升级）

本文探讨了Android系统中支持的图像格式及其在不同版本中的兼容性问题，重点涵盖了存储、HTTP传输、相机功能以及SparseArray的应用。文章详细分析了从Android 10 (API 29) 到Android 11 的存储规范变化，并讨论了这些变化对图像处理的影响。此外，还介绍了如何通过系统升级和代码优化来解决版本兼容性问题，以确保应用程序在不同Android版本中稳定运行。 ... [详细]

蜡笔小新 2024-11-05 14:02:29

溪谷小兵

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章