当前位置: 开发笔记 > 编程语言 > 正文

python读取pdf表格_python3读取pdf文件

作者： | 来源：互联网 | 2023-09-25 00:05

一.安装pdfminer3k模块二.读取pdf文件importsysimportimportlibimportlib.reload(sys)frompdfminer.pdf

一.安装pdfminer3k模块

二.读取pdf文件import sys

import importlib

importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal, LAParams

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

def readPDF(path, toPath):

# 以二进制形式打开pdf文件

with open(path, "rb") as f:

# 创建一个pdf文档分析器

parser &＃61; PDFParser(f)

# 创建pdf文档

pdfFile &＃61; PDFDocument()

# 链接分析器与文档对象

parser.set_document(pdfFile)

pdfFile.set_parser(parser)

# 提供初始化密码

pdfFile.initialize()

# 检测文档是否提供txt转换

if not pdfFile.is_extractable:

raise PDFTextExtractionNotAllowed

else:

# 解析数据

# 数据管理

manager &＃61; PDFResourceManager()

# 创建一个PDF设备对象

laparams &＃61; LAParams()

device &＃61; PDFPageAggregator(manager, laparams&＃61;laparams)

# 解释器对象

interpreter &＃61; PDFPageInterpreter(manager, device)

# 开始循环处理&＃xff0c;每次处理一页

for page in pdfFile.get_pages():

interpreter.process_page(page)

layout &＃61; device.get_result()

for x in layout:

if(isinstance(x, LTTextBoxHorizontal)):

with open(toPath, "a") as f:

str &＃61; x.get_text()

# print(str)

f.write(str&＃43;"\n")

path &＃61; r"G:\program\PycharmProjects\day06\3.读取pdf文件\文档.pdf"

toPath &＃61; r"G:\program\PycharmProjects\day06\3.读取pdf文件\a.txt"

readPDF(path, toPath)

推荐阅读

python
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
python
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
search
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
ip
Python多进程高效读取超大文件的技巧

本文详细介绍了如何使用Python的多进程技术来高效地分块读取超大文件，并将其输出为多个文件。通过这种方式，可以显著提高读取速度和处理效率。 ... [详细]

蜡笔小新 2024-11-14 10:59:08
python
Python 主成分分析（PCA）及其相关系数计算方法

本文详细介绍了如何使用 Python 进行主成分分析（PCA），包括数据导入、预处理、模型训练和结果可视化等步骤。通过具体的代码示例，帮助读者理解和应用 PCA 技术。 ... [详细]

蜡笔小新 2024-11-13 19:56:29
python
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
ip
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
instance
实验九：使用SharedPreferences存储简单数据

本实验旨在帮助学生理解和掌握使用SharedPreferences存储和读取简单数据的方法，包括程序参数和用户选项。 ... [详细]

蜡笔小新 2024-11-12 14:21:47
jsp
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
python
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
instance
自定义 Android 圆形进度条视图，支持显示数字和中心文字

本文介绍了一种自定义的Android圆形进度条视图，支持在进度条上显示数字，并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现，详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]

蜡笔小新 2024-11-10 13:04:42
search
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
ip
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
ip
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
instance
百度飞桨图像分割课程笔记14：全景分割技术详解——PanopticDeepLab（CVPR 2019）

Panoptic-DeepLab 是一种自底向上的全景分割方法，无需预先进行目标检测。该模型在 CVPR 2019 上提出，以其简洁、强大且快速的特点成为全景分割任务的基准。通过高效地结合实例分割和语义分割，Panoptic-DeepLab 能够准确地识别和区分图像中的每个对象和背景区域，为复杂的场景提供全面的分割结果。 ... [详细]

蜡笔小新 2024-11-11 09:11:39

Tags | 热门标签

RankList | 热门文章