热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python读取pdf表格_python3读取pdf文件

一.安装pdfminer3k模块二.读取pdf文件importsysimportimportlibimportlib.reload(sys)frompdfminer.pdf

一.安装pdfminer3k模块

二.读取pdf文件import sys

import importlib

importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal, LAParams

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

def readPDF(path, toPath):

# 以二进制形式打开pdf文件

with open(path, "rb") as f:

# 创建一个pdf文档分析器

parser = PDFParser(f)

# 创建pdf文档

pdfFile = PDFDocument()

# 链接分析器与文档对象

parser.set_document(pdfFile)

pdfFile.set_parser(parser)

# 提供初始化密码

pdfFile.initialize()

# 检测文档是否提供txt转换

if not pdfFile.is_extractable:

raise PDFTextExtractionNotAllowed

else:

# 解析数据

# 数据管理

manager = PDFResourceManager()

# 创建一个PDF设备对象

laparams = LAParams()

device = PDFPageAggregator(manager, laparams=laparams)

# 解释器对象

interpreter = PDFPageInterpreter(manager, device)

# 开始循环处理,每次处理一页

for page in pdfFile.get_pages():

interpreter.process_page(page)

layout = device.get_result()

for x in layout:

if(isinstance(x, LTTextBoxHorizontal)):

with open(toPath, "a") as f:

str = x.get_text()

# print(str)

f.write(str+"\n")

path = r"G:\program\PycharmProjects\day06\3.读取pdf文件\文档.pdf"

toPath = r"G:\program\PycharmProjects\day06\3.读取pdf文件\a.txt"

readPDF(path, toPath)



推荐阅读
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有