当前位置: 开发笔记 > 编程语言 > 正文

python自学网pdf_python中怎么将pdf内容显示出来？

作者：zhattt199_117 | 来源：互联网 | 2023-09-18 18:20

python读取pdf文件需要使用pdfminer库，安装pdfminer库的命令如下：pipinstallpdfminerpython读取pdf的文

python读取pdf文件需要使用pdfminer库&＃xff0c;安装pdfminer库的命令如下&＃xff1a;pip install pdfminer

python读取pdf的文件如下&＃xff1a;# coding&＃61;utf-8

import sys

reload(sys)

sys.setdefaultencoding(&＃39;utf-8&＃39;)

import time

time1&＃61;time.time()

import os.path

from pdfminer.pdfparser import PDFParser,PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal,LAParams

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

result&＃61;[]

class CPdf2TxtManager():

def __init__(self):

&＃39;&＃39;&＃39;&＃39;&＃39;

Constructor

&＃39;&＃39;&＃39;

def changePdfToText(self, filePath):

file &＃61; open(path, &＃39;rb&＃39;) # 以二进制读模式打开

#用文件对象来创建一个pdf文档分析器

praser &＃61; PDFParser(file)

# 创建一个PDF文档

doc &＃61; PDFDocument()

# 连接分析器与文档对象

praser.set_document(doc)

doc.set_parser(praser)

# 提供初始化密码

# 如果没有密码就创建一个空的字符串

doc.initialize()

# 检测文档是否提供txt转换&＃xff0c;不提供就忽略

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

# 创建PDf 资源管理器来管理共享资源

rsrcmgr &＃61; PDFResourceManager()

# 创建一个PDF设备对象

laparams &＃61; LAParams()

device &＃61; PDFPageAggregator(rsrcmgr, laparams&＃61;laparams)

# 创建一个PDF解释器对象

interpreter &＃61; PDFPageInterpreter(rsrcmgr, device)

pdfStr &＃61; &＃39;&＃39;

# 循环遍历列表&＃xff0c;每次处理一个page的内容

for page in doc.get_pages(): # doc.get_pages() 获取page列表

interpreter.process_page(page)

# 接受该页面的LTPage对象

layout &＃61; device.get_result()

for x in layout:

if hasattr(x, "get_text"):

# print x.get_text()

result.append(x.get_text())

fileNames &＃61; os.path.splitext(filePath)

with open(fileNames[0] &＃43; &＃39;.txt&＃39;,&＃39;wb&＃39;) as f:

results &＃61; x.get_text()

print(results)

f.write(results &＃43; &＃39;\n&＃39;)

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

&＃39;&＃39;&＃39;&＃39;&＃39;

解析pdf 文本&＃xff0c;保存到txt文件中

&＃39;&＃39;&＃39;

path &＃61; u&＃39;C:/data3.pdf&＃39;

pdf2TxtManager &＃61; CPdf2TxtManager()

pdf2TxtManager.changePdfToText(path)

# print result[0]

time2 &＃61; time.time()

print u&＃39;ok,解析pdf结束!&＃39;

print u&＃39;总共耗时&＃xff1a;&＃39; &＃43; str(time2 - time1) &＃43; &＃39;s&＃39;

pdf文件如下&＃xff1a;

python读取结果如下&＃xff1a;

更多Python知识请关注Python自学网。

推荐阅读

char
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
int
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
int
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
int
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
int
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
char
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
char
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
shell
Django Admin 管理后台使用指南

本文详细介绍了如何在 Django 项目中使用 Admin 管理后台，包括创建超级用户、启动项目、管理数据模型和修改用户密码等步骤。 ... [详细]

蜡笔小新 2024-11-12 13:27:04
char
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
char
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
char
使用Java和PDFBox实现PDF局部切割

本文介绍了如何使用Java和PDFBox库根据坐标值对PDF文件进行局部切割的方法。 ... [详细]

蜡笔小新 2024-11-13 13:04:52
int
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
object
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
object
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
int
实验九：使用SharedPreferences存储简单数据

本实验旨在帮助学生理解和掌握使用SharedPreferences存储和读取简单数据的方法，包括程序参数和用户选项。 ... [详细]

蜡笔小新 2024-11-12 14:21:47

zhattt199_117

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章