Python实现PDF文件转表格

作者：手机用户2602907455 | 来源：互联网 | 2023-09-01 13:27

方式一：tabula-py需要安装java#pipinstalltabula-pyimporttabulaimportpandasaspddftabula.

方式一：tabula-py

需要安装java

#pip install tabula-py import tabula import pandas as pd df = tabula.read_pdf("D:\\我的文档\\Python\\2019221145237597.pdf", encoding=&＃39;gbk&＃39;, pages=&＃39;all&＃39;) print(df) for indexs in df.index:# 遍历打印print(df.loc[indexs].values[0:-1])

import tabula# Read pdf into DataFrame df = tabula.read_pdf("test.pdf", options)# Read remote pdf into DataFrame df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")# convert PDF into CSV tabula.convert_into("test.pdf", "output.csv", output_format="csv")# convert all PDFs in a directory tabula.convert_into_by_batch("input_directory", output_format=&＃39;csv&＃39;)

方式二：pdfplumber

Pdfplumber是一个可以处理pdf格式信息的库。可以查找关于每个文本字符、矩阵、和行的详细信息，也可以对表格进行提取并进行可视化调试。

https://github.com/jsvine/pdfplumber

简单使用

import pdfplumber with pdfplumber.open("path/file.pdf") as pdf:first_page = pdf.pages[0] #获取第一页print(first_page.chars[0])

dfplumber.pdf中包含了.metadata和.pages两个属性。
metadata是一个包含pdf信息的字典。
pages是一个包含页面信息的列表。

每个pdfplumber.page的类中包含了几个主要的属性。
page_number 页码
width 页面宽度
height 页面高度
objects/.chars/.lines/.rects 这些属性中每一个都是一个列表，每个列表都包含一个字典，每个字典用于说明页面中的对象信息，包括直线，字符，方格等位置信息。

常用方法

extract_text() 用来提页面中的文本，将页面的所有字符对象整理为的那个字符串 extract_words() 返回的是所有的单词及其相关信息 extract_tables() 提取页面的表格 to_image() 用于可视化调试时，返回PageImage类的一个实例

表提取设置

默认情况下，extract_tables使用页面的垂直和水平线（或矩形边）作为单元格分隔符。但是方法该可以通过table_settings参数高度定制。可能的设置及其默认值：

{"vertical_strategy": "lines", "horizontal_strategy": "lines","explicit_vertical_lines": [],"explicit_horizontal_lines": [],"snap_tolerance": 3,"join_tolerance": 3,"edge_min_length": 3,"min_words_vertical": 3,"min_words_horizontal": 1,"keep_blank_chars": False,"text_tolerance": 3,"text_x_tolerance": None,"text_y_tolerance": None,"intersection_tolerance": 3,"intersection_x_tolerance": None,"intersection_y_tolerance": None, }

举例使用

读取文字

import pdfplumber import pandas as pdwith pdfplumber.open("E:\\600aaa_2.pdf") as pdf:page_count = len(pdf.pages)print(page_count) # 得到页数for page in pdf.pages:print(&＃39;---------- 第[%d]页 ----------&＃39; % page.page_number)# 获取当前页面的全部文本信息，包括表格中的文字print(page.extract_text())

读取表格

import pdfplumber import pandas as pd import rewith pdfplumber.open("E:\\600aaa_1.pdf") as pdf:page_count = len(pdf.pages)print(page_count) # 得到页数for page in pdf.pages:print(&＃39;---------- 第[%d]页 ----------&＃39; % page.page_number)for pdf_table in page.extract_tables(table_settings={"vertical_strategy": "text","horizontal_strategy": "lines","intersection_tolerance":20}): # 边缘相交合并单元格大小# print(pdf_table)for row in pdf_table:# 去掉回车换行print([re.sub(&＃39;\s+&＃39;, &＃39;&＃39;, cell) if cell is not None else None for cell in row])

案例

import pandas as pd def to_table(pdf_table): #将DataFrame第一行作为表头df=pd.DataFrame(pdf_table)df.columns = df.iloc[0]df=df.drop(df.index[0])return df

import pdfplumber import pandas as pd import rewith pdfplumber.open("/mnt/c/Users/admin/Downloads/202104291855528(file)附件：天津市医保药品支付范围信息维护明细表（2021年第四期）.pdf") as pdf:page_count = len(pdf.pages)print(page_count) # 得到页数i=0for page in pdf.pages:print(&＃39;---------- 第[%d]页 ----------&＃39; % page.page_number)for pdf_table in page.extract_tables(table_settings={"vertical_strategy": "text","horizontal_strategy": "lines","intersection_tolerance":20}): # 边缘相交合并单元格大小# table=pd.DataFrame(pdf_table)table=to_table(pdf_table)table[&＃39;PDF页码&＃39;]=&＃39;第[{}]页&＃39;.format(page.page_number)print(table)i=i+1if i==1:ddf=tableelse:ddf=pd.concat([ddf, table])ddf.to_excel(&＃39;/mnt/c/Users/admin/Downloads/202104291855528(file)附件：天津市医保药品支付范围信息维护明细表（2021年第四期）.xlsx&＃39;,index=False)

推荐阅读

random
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
java
JavaScript疑难杂症系列相称性推断的知识点详解

本文详细解析了JavaScript中相称性推断的知识点，包括严厉相称和宽松相称的区别，以及范例转换的规则。针对不同类型的范例值，如差别范例值、统一类的原始范例值和统一类的复合范例值，都给出了具体的比较方法。对于宽松相称的情况，也解释了原始范例值和对象之间的比较规则。通过本文的学习，读者可以更好地理解JavaScript中相称性推断的概念和应用。 ... [详细]

蜡笔小新 2023-12-14 19:12:10
java
javascript – 概述在Firefox上无法正常工作

我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观：而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]

蜡笔小新 2023-12-14 10:20:38
java
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
java
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
process
scrapy存入excel时，excel文件被反复擦除重写。文件大小始终不超过100k，请问这种情况改如何解决

怀疑是每次都在新建文件，具体代码如下 ... [详细]

蜡笔小新 2023-12-13 17:53:49
text
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
post
module 'paddle.fluid' has no attribute 'data'

modulepaddle.fluidhasnoattributedata解决：pipinstallpaddlepaddle-gpu1.7.0.post107-ih ... [详细]

蜡笔小新 2023-12-12 13:23:39
java
Composer依赖管理的重要性及使用方法

本文介绍了Composer依赖管理的重要性及使用方法。对于现代语言而言，包管理器是标配，而Composer作为PHP的包管理器，解决了PEAR的问题，并且使用简单，方便提交自己的包。文章还提到了使用Composer能够避免各种include的问题，避免命名空间冲突，并且能够方便地安装升级扩展包。 ... [详细]

蜡笔小新 2023-12-11 17:06:18
java
Anaconda 安装第三方包(以jieba工具为例)

1.直接在cmd窗口运行pipinstalljieba2.使用conda自带的安装工具condainstalljieba3.有一些模块是无法使用以上两种方式安装上ÿ ... [详细]

蜡笔小新 2023-12-11 16:56:45
text
EzPP 0.2发布，新增YAML布局渲染功能

EzPP发布了0.2.1版本，新增了YAML布局渲染功能，可以将YAML文件渲染为图片，并且可以复用YAML作为模版，通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片，让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子，介绍了使用ezpp的基本渲染方法，以及如何使用canvas、text类元素、自定义字体等。 ... [详细]

蜡笔小新 2023-12-11 12:39:10
text
Python操作MySQL（pymysql模块）详解及示例代码

本文介绍了使用Python操作MySQL数据库的方法，详细讲解了pymysql模块的安装和连接MySQL数据库的步骤，并提供了示例代码。内容涵盖了创建表、插入数据、查询数据等操作，帮助读者快速掌握Python操作MySQL的技巧。 ... [详细]

蜡笔小新 2023-12-10 17:50:06
random
Python使用Pillow包生成验证码图片的方法

本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号，并添加干扰象素，生成一幅验证码图片。需要配置好Python环境，并安装Pillow库。代码实现包括导入Pillow包和随机模块，定义随机生成字母、数字和字体颜色的函数。 ... [详细]

蜡笔小新 2023-12-10 16:51:25
random
Pandas 基础(3) - 生成 Dataframe 的几种方式总结

本文总结了使用不同方式生成 Dataframe 的方法，包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项，如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]

蜡笔小新 2023-12-10 12:59:34
random
python中安装并使用redis相关的知识

本文介绍了在python中安装并使用redis的相关知识，包括redis的数据缓存系统和支持的数据类型，以及在pycharm中安装redis模块和常用的字符串操作。 ... [详细]

蜡笔小新 2023-12-09 10:31:54

手机用户2602907455

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章