当前位置: 开发笔记 > 编程语言 > 正文

使用神经网络提取PDF表格工具来了，支持图片，关键是能白嫖谷歌GPU资源

作者：福田汽车-唐山万联 | 来源：互联网 | 2023-09-18 19:04

贾浩楠发自凹非寺量子位报道|公众号QbitAI“表哥表姐”们还在为大量PDF文件中的表格发愁吗？百度一下，网上有大量提取PDF表格的工具，

贾浩楠发自凹非寺
量子位报道 | 公众号 QbitAI

“表哥表姐”们还在为大量PDF文件中的表格发愁吗&＃xff1f;

百度一下&＃xff0c;网上有大量提取PDF表格的工具&＃xff0c;但是&＃xff0c;它们都只支持文本格式PDF。

但扫描生成的图片表格怎么办&＃xff1f;

别着急&＃xff0c;一种使用深度神经网络识别提取表格的开源工具可以帮助你。

兼容图片、高准确率、还不占用本地运算资源&＃xff0c;如此实用的工具值得你拥有。

测试实例

如果在输入的PDF文件中检测的表格&＃xff0c;模型会在边界框&＃xff08;bounding box&＃xff09;标出表格边框&＃xff1a;

然后&＃xff0c;表格数据会被转化为Panda数据框架&＃xff0c;方便后续处理&＃xff1a;

怎么样&＃xff0c;是不是很实用&＃xff1f;那这个工具如何使用呢&＃xff1f;

使用姿势详解

神经网络算法&＃xff0c;还不占用本地运算资源&＃xff1f;

对&＃xff0c;你没听错&＃xff0c;这个工具的所有代码都可以在谷歌Colab上运行。也就是说你可以利用Colab云端资源完成训练和推理&＃xff0c;无需本地安装。

这个工具使用到的深度神经网络是Keras-RetinaNet&＃xff0c;首先要在Colab上安装Keras-RetinaNet&＃xff0c;通过一下一行代码就可以完成&＃xff1a;

git clone https://github.com/fizyr/keras-retinanet

同时需要安装必要的库&＃xff1a;

pip install . python setup.py build_ext — inplace

训练Keras-RetinaNet识别表格

首先要构建或一个训练使用的数据库。

这里要用到Colab工具PDF2Img&＃xff0c;将PDF文件转为JPG格式供算法学习。

然后将转好的图片保存在Images文件夹中。接下来需要手动给这些训练数据打标签&＃xff0c;这里推荐使用在线标记工具makesense.ai。

将XML注释文件保存在注释文件夹中&＃xff0c;并创建用于培训和测试的PDF文件列表&＃xff0c;将该列表导入train.txt和test.txt中。

接下来&＃xff0c;克隆Github项目https://github.com/ferrygun/PDFTableExtract&＃xff0c;并安装beautifulsoup。

运行以下命令以将PASCALVOC格式转换为Keras-RetinaNet所需的格式&＃xff1a;

python build_logos.py

运行上述命令后&＃xff0c;会得到retinanet_classes.csv&＃xff0c;retinanet_test.csv和retinanet_train.csv。

在retinanet_classses.csv中&＃xff0c;由于只识别PDF文档中的表&＃xff0c;所以只有到一个class&＃xff0c;即class 0。

如果你在打标签的过程中加入页眉页脚等标签&＃xff0c;相应能得到多个class。

完整的文件和文件夹结构的列表&＃xff1a;

然后&＃xff0c;将retinanet_classes.csv&＃xff0c;retinanet_test.csv&＃xff0c;retinanet_train.csv&＃xff0c;train.txt和test.txt 导入keras-retinanet的根文件夹中&＃xff1a;

接下来&＃xff0c;运行Colab TrainOCR&＃xff0c;可以根据要训练的JPG文件数量来调整训练的epoch数量。

训练完成后&＃xff0c;就会得到权重文件output.h5&＃xff0c;下载此文件并将其保存到本地主机。后面将使用该文件来运行测试。

这里需要注意的一点是&＃xff0c;在Colab中&＃xff0c;已将文件上传到Git并进行了Git克隆。

运行测试

运行测试前&＃xff0c;还需要安装处理PDF文件必要的库。

PyPDF2是一个python工具库&＃xff0c;能够提取文档信息&＃xff0c;裁剪页面等。

使用以下命令安装此库&＃xff1a;

pip install PyPDF2

Camelot是专门用于解析PDF页面表格的python库。

使用以下命令安装此库&＃xff1a;

pip install camelot-py[cv]

PDF2IMG是将Python转换为PIL Image对象的python库。

使用以下命令安装此库&＃xff1a;

pip install pdf2imag

在运行预测之前&＃xff0c;需要使用从训练中获得的权重文件output.h5加载模型&＃xff0c;并从retinanet_classes.csv定义标签class 0。

model_path &＃61; ‘output.h5’ model &＃61; models.load_model(model_path, backbone_name&＃61;’resnet50’) labels &＃61; ‘retinanet_classes.csv’ LABELS &＃61; open(labels).read().strip().split(‘\n’) LABELS &＃61; {int(L.split(‘,’)[1]): L.split(‘,’)[0] for L in LABELS} print(LABELS) {0: ‘tabel’}

接下来运行测试

import numpy as np import cv2 import matplotlib.pyplot as pltimage_path &＃61; imgfname #image &＃61; cv2.imread(image_path) image &＃61; read_image_bgr(image_path) image &＃61; cv2.cvtColor(image, cv2.COLOR_BGR2RGB)output &＃61; image.copy() output &＃61; cv2.cvtColor(output, cv2.COLOR_BGR2RGB) print(output.shape) # row (height) x column (width) x color (3)image &＃61; preprocess_image(image) (image, scale) &＃61; resize_image(image) image &＃61; np.expand_dims(image, axis&＃61;0)# detect objects in the input image and correct for the image scale (boxes, scores, labels) &＃61; model.predict_on_batch(image) boxes /&＃61; scaleconfidence &＃61; 0.2 from google.colab.patches import cv2_imshow import matplotlib.pyplot as plt label_out &＃61; [] result &＃61; ""# loop over the detections for (box, score, label) in zip(boxes[0], scores[0], labels[0]):# filter out weak detectionsif score plt.imshow(output) plt.show()

如果检测的表格&＃xff0c;模型会在边界框&＃xff08;bounding box&＃xff09;标出表格边框&＃xff1a;

边界框坐标&＃xff08;x1&＃xff0c;y1&＃xff0c;x2&＃xff0c;y2&＃xff09;&＃xff0c;将table_area输入到Camelot read_pdf函数中&＃xff0c;table_area是已标准化的边界框。

interesting_areas&＃61;[]output &＃61; [[x1, y1, x2, y2]] for x in output:[x1, y1, x2, y2] &＃61; bboxes_pdf(img, pdf_page, x)bbox_camelot &＃61; [",".join([str(x1), str(y1), str(x2), str(y2)])][0] # x1,y1,x2,y2 where (x1, y1) -> left-top and (x2, y2) -> right-bottom in PDF coordinate space#print(bbox_camelot)interesting_areas.append(bbox_camelot)print(interesting_areas) output_camelot &＃61; camelot.read_pdf(filepath&＃61;pdf_file, pages&＃61;str(pg), flavor&＃61;"stream", table_areas&＃61;interesting_areas )output_camelot[0].df

这样就可以将表格数据转化为Panda数据框架&＃xff0c;方便后续处理&＃xff1a;

图片怎么办

针对扫描图片格式的PDF表格&＃xff0c;可以使用Ocrmypdf包来将图片格式PDF转为文本格式。

Ocrmypdf是一个python软件包&＃xff0c;可将基于图像的pdf转换为基于文本的PDF。

安装ocrmypdf&＃xff0c;可以通过以下命令行将其用于macOS和Linux&＃xff1a;

brew install ocrmypdf

通过以下命令调用&＃xff1a;

ocrmypdf input_file.pdf output_file.pdf

之后就可以按照上面的方法进行表格提取了。

怎么样&＃xff0c;这款兼容图片&＃xff0c;又能白嫖谷歌GPU的PDF表格工具对你有帮助吗&＃xff1f;

传送门

项目地址&＃xff1a;
https://github.com/ferrygun/PDFTableExtract

在线打标签工具&＃xff1a;
https://www.makesense.ai/

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容&＃xff0c;未经账号授权&＃xff0c;禁止随意转载。

喜欢就点「在看」吧 !

推荐阅读

git
使用 SourceTree 管理 SVN 代码仓库的详细指南

SourceTree 是一款功能强大的 Git 管理工具，但很多人不知道它同样支持管理 SVN 代码仓库。本文将详细介绍如何使用 SourceTree 来管理和操作 SVN 代码仓库。 ... [详细]

蜡笔小新 2024-11-12 19:15:29
git
掌握 Git 与 SVN 的高效使用技巧，轻松应对版本控制挑战

本文深入探讨了 Git 与 SVN 的高效使用技巧，旨在帮助开发者轻松应对版本控制中的各种挑战。通过详细解析两种工具的核心功能与最佳实践，读者将能够更好地掌握版本管理的精髓，提高开发效率。 ... [详细]

蜡笔小新 2024-11-06 11:05:37
testing
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
range
从零开始掌握PyTorch：生成对抗网络GAN进阶指南（第九篇）

本文将深入探讨生成对抗网络（GAN）在计算机视觉领域的应用。作为该领域的经典模型，GAN通过生成器和判别器的对抗训练，能够高效地生成高质量的图像。本文不仅回顾了GAN的基本原理，还将介绍一些最新的进展和技术优化方法，帮助读者全面掌握这一重要工具。 ... [详细]

蜡笔小新 2024-11-02 13:18:42
rsa
Git多SSH Key配置方法

本文介绍了如何在GitHub上设置多个SSH Key，以解决原有Key失效的问题，并确保不同项目使用不同的私钥进行安全访问。 ... [详细]

蜡笔小新 2024-11-13 13:05:21
instance
WinMain 函数详解及示例

本文详细介绍了 WinMain 函数的参数及其用途，并提供了一个具体的示例代码来解析 WinMain 函数的实现。 ... [详细]

蜡笔小新 2024-11-13 12:49:31
instance
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
instance
大型网站技术架构：核心原理与案例分析的思维导图解析

本文通过思维导图的形式，深入解析了大型网站技术架构的核心原理与实际案例。首先，探讨了大型网站架构的演化过程，从单体应用到分布式系统的转变，以及各阶段的关键技术和挑战。接着，详细分析了常见的大型网站架构模式，包括负载均衡、缓存机制、数据库设计等，并结合具体案例进行说明。这些内容不仅有助于理解大型网站的技术实现，还能为实际项目提供宝贵的参考。 ... [详细]

蜡笔小新 2024-11-11 16:13:07
instance
Git命令基础应用指南

本指南详细介绍了Git命令的基础应用，包括如何使用`git clone`从远程服务器克隆仓库（例如：`git clone [url/path/repository]`）以及如何克隆本地仓库（例如：`git clone [local/path/repository]`）。此外，还提供了常见的Git操作技巧，帮助开发者高效管理代码版本。 ... [详细]

蜡笔小新 2024-11-11 09:19:38
range
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
range
Python爬虫数据导出至CSV及图片存储技术详解

Python爬虫数据导出至CSV及图片存储技术详解 ... [详细]

蜡笔小新 2024-11-09 13:19:33
web
CLIfe：我的高效开发环境配置

在开发过程中，我最初也依赖于功能全面但操作繁琐的集成开发环境（IDE），如Borland Delphi 和 Microsoft Visual Studio。然而，随着对高效开发的追求，我逐渐转向了更加轻量级和灵活的工具组合。通过 CLIfe，我构建了一个高度定制化的开发环境，不仅提高了代码编写效率，还简化了项目管理流程。这一配置结合了多种强大的命令行工具和插件，使我在日常开发中能够更加得心应手。 ... [详细]

蜡笔小新 2024-11-07 18:32:20
web
利用 Python 中的 Altair 库实现数据抖动的水平剥离分析

利用 Python 中的 Altair 库实现数据抖动的水平剥离分析 ... [详细]

蜡笔小新 2024-11-02 12:39:54
web
Git基础操作指南：掌握必备技能

掌握 Git 基础操作是每个开发者必备的技能。本文详细介绍了 Git 的基本命令和使用方法，包括初始化仓库、配置用户信息、添加文件、提交更改以及查看版本历史等关键步骤。通过这些操作，读者可以快速上手并高效管理代码版本。例如，使用 `git config --global user.name` 和 `git config --global user.email` 来设置全局用户名和邮箱，确保每次提交时都能正确标识提交者信息。 ... [详细]

蜡笔小新 2024-11-01 16:16:26
web
基于Node.js的高性能实时消息推送系统：利用Socket.IO与Express实现高并发消息转发

基于Node.js的高性能实时消息推送系统通过集成Socket.IO和Express框架，实现了高效的高并发消息转发功能。该系统能够支持大量用户同时在线，并确保消息的实时性和可靠性，适用于需要即时通信的应用场景。 ... [详细]

蜡笔小新 2024-11-01 11:20:11