当前位置: 开发笔记 > 编程语言 > 正文

GitHubStar13.9k，顶级项目全新开源表格识别算法

作者：米西米西的歪国人 | 来源：互联网 | 2023-06-03 16:10

导读相信大家在工作生活中经常会遇到表格识别的问题，比如导师说，把下面PDF文件里面的表格取出来整理成Excel表。也可能会遇到，公司领导或

导读

相信大家在工作生活中经常会遇到表格识别的问题，比如导师说，把下面 PDF 文件里面的表格取出来整理成 Excel 表。

也可能会遇到，公司领导或者客户发来一张截图，需要里面的表格取出来转成 Excel 表。

这种情况下你会怎么做呢，新建一个 Excel 一个一个数据敲么，辛辛苦苦半天赶出来，领导还会来一句，怎么这么慢，简直郁闷死……

别着急，只要稍微会一点 Python 代码，这个开源项目神器拯救你！

效果展示

版面分析 + 表格识别

如图所示，针对一张完整的 PDF 图片，这个开源项目可以对文档图片中的文本、表格、图片、标题与列表区域进行分类。同时还可以利用表格识别技术完整地提取表格结构信息，使得表格图片变为可编辑的 Excel 文件。

不仅仅是 PDF 文件转 excel，如果编程能力再强一些，结合版面分析技术，PDF 转 Word 都不在话下。

而且使用也是非常方便，在完成 Python whl 包安装之后，简单几行代码即可完成快速试用。

最终结果会输出图片文件夹，Excel 表和文字识别结果，确实是非常方便。

传送门：

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.2/ppstructure/README_ch.md

版面分析与表格识别核心技术概述

不管是版面分析还是表格识别，现有方案可大致分为基于图像处理的传统方法和基于深度学习的方法。

（1）传统方法：版面分析比较著名的是 O’Gorman 在 1993 年 TPAMI 中发表的算法 Docstrum。通过自下而上的方法依次将图像中的黑白连通域划分为文字、文本行与文本块，从而得到版面布局。表格识别的传统方法通过腐蚀、膨胀等操作获得表格线、划分行列区域，然后将单元格与文本内容相结合重构为表格对象。但是传统算法主要问题在于，对于版面布局分析和表格结构的提取，图像处理的方法依赖各种阈值和参数的选择，对于不同场景下的文档图片难以保证泛化性。

（2）深度学习方法：除了直接使用检测模型来对版面内容进行分类以外，还融合了检测、分割、图神经网络、注意力机制等众多前沿技术能力。依赖算法工程师对于深度神经网络的精心设计，可以不再依赖阈值与参数，具有更好的泛化性。

PP-Structure 核心技术解读

版面分析技术

PP-Structure 的版面分析技术，主要是对图片形式的文档进行版面分析，将文档划分为文字、标题、表格、图片以及列表 5 类区域（与 Layout-Parser 联合使用）。其核心技术思路与 Layout-Parser 项目密切合作，参考了 Layout-Parser 的工程结构设计，配合 PaddleDetection 开源的高效检测算法 PP-YOLO v2，在数据集 TableBank 和 PubLayNet 上 mAP 分别达到 93.6 和 96.2， NVIDIA Tesla P40 耗时仅需 66.6ms，且可以支持用户根据自己的数据自定义训练。

Layout-Parser 是开源的基于深度学习的文档图像分析工具箱，可用于布局检测，字符识别和许多其他文档处理任务，包含大量丰富模型，支持自定义 DL 模型，支持多个文档布局检测数据集。

GitHub 地址：

https://github.com/Layout-Parser/layout-parser

表格识别技术

表格识别技术则主要使用基于注意力机制的图片描述模型 RARE，整体流程如下图所示，对于其中的表格区域进行表格识别处理。

表格识别的难点主要在于表格结构的提取，以及将表格信息与 OCR 信息融合。整体流程可以分为上下两部分，其中上半部分（黑色支路）是普通的 OCR 过程，通过（1）文本检测模块对表格图片进行单行文字检测，获得坐标，然后通过（2）文本识别模块识别模型得到文字结果。

而在下半部分的在蓝色支路中，表格图片首先经过（3）表格结构预测模块，获得每个 Excel 单元格的四点坐标与表格结构信息。结合黑色支路文本检测获得的单行文字文本框 4 点坐标，共同输入（4）Cell 坐标聚合模块，再通过（5）Cell 文本聚合模块，将属于同一单元格的文本拼接在一起。最后结合表格结构信息，通过（6）Excel 导出模块获得 Excel 形式的表格数据。

下面分别针每个模块分别展开介绍。

（1）文本检测模块 和（2）文本识别模块：

主要使用 PP-OCR 提供的检测和识别算法。

（3）表格结构预测模块，主要使用基于 Attention 的图片描述模型 RARE，RARE 模型可以实现：输入一张图片，通过带有注意力机制的网络输出一段文字，描述图片的内容，而针对于表格图片的图片描述网络，输入一张经过版面分析的表格图片，输出的是一串 HTML 字符（如下图所示）。表格的结构通过 HTML 的结构标记表示，其中的内容即为表格文本中的内容。通过进一步的 HTML 解析，可以获得每个文本的单元格四点坐标和表格结构信息。

（4）Cell 坐标聚合模块，主要用来解决如何将跨行单元格的文本重新拼接在一个单元格内的问题。它通过计算由文本检测算法获得的文本框坐标（红色框）与表格结构预测模块得到的 Cell 坐标（蓝色框）之间的 IOU 和顶点距离来进行单行到多行的聚合。使用 IOU 判断哪些红色框同属于一个蓝色框，使用顶点距离和 IOU 判断红色框的排列顺序。

（5）Cell 文本聚合模块，根据已有的红色文本框顺序，按照从上到下从左到右顺序利用（4）Cell 坐标聚合模块的结果将（2）文本识别结果和进行拼接，这样对于多行文本的单元格内容即可拼接成一个字符串。

（6）Excel 导出模块，将（3）表格结构预测结果 html 结果与（5）Cell 文本聚合模块文本结果结合，最终导出为 Excel 输出。

以上所有内容均在 PaddleOCR 项目开源，目前 star 数量超过 13.5k

推荐阅读

int
利用PaddleSharp模块在C#中实现图像文字识别功能测试

PaddleSharp 是 PaddleInferenceCAPI 的 C# 封装库，适用于 Windows (x64)、NVIDIA GPU 和 Linux (Ubuntu 20.04) 等平台。本文详细介绍了如何使用 PaddleSharp 在 C# 环境中实现图像文字识别功能，并进行了全面的功能测试，验证了其在多种硬件配置下的稳定性和准确性。 ... [详细]

蜡笔小新 2024-10-30 15:53:37
int
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
text
Python邮件发送实战：附带附件、多收件人与多抄送人的详细示例

python发送邮件（带附件）、发送给多人、抄送给多人的示例#!usrbinenvpython #-*-encoding:utf-8-*-imports ... [详细]

蜡笔小新 2024-10-22 15:08:23
text
扫描PDF转可编辑文本教程

扫描PDF是通过扫描的方式把纸质文档或者图片保存为PDF格式，扫描PDF本质上属于图像PDF，无法直接提取其中的文字。扫描而成的PDF文件如何转换成可编辑文本？今天就来和大家分享扫描件转 ... [详细]

蜡笔小新 2024-10-19 16:08:39
int
Python使用Pillow包生成验证码图片的方法

本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号，并添加干扰象素，生成一幅验证码图片。需要配置好Python环境，并安装Pillow库。代码实现包括导入Pillow包和随机模块，定义随机生成字母、数字和字体颜色的函数。 ... [详细]

蜡笔小新 2023-12-10 16:51:25
int
宏基因组学经典文献重现（一）：利用ggplot2进行散点图可视化分析

宏基因组学经典文献重现（一）：利用ggplot2进行散点图可视化分析 ... [详细]

蜡笔小新 2024-10-30 16:50:53
text
使用 XlsxWriter 模块在 Python 中实现 Excel 单元格内多种格式文本的高效写入

XlsxWriter 是一个强大的 Python 库，专门用于生成 `.xlsx` 格式的 Excel 文件。该模块不仅支持基本的数据写入，还提供了丰富的格式化选项，能够实现单元格内多种文本样式的高效处理。无论是字体、颜色、对齐方式还是边框，XlsxWriter 都能轻松应对，满足用户在 Excel 视图中的各种需求。 ... [详细]

蜡笔小新 2024-10-29 16:01:21
int
深入学习 Python 中的 xlrd 模块：掌握 Excel 文件读取技巧

本文深入探讨了 Python 中的 xlrd 模块，重点介绍了如何高效读取 Excel 文件（包括 xlsx 和 xls 格式）。同时，文章还详细讲解了 xlwt 模块在 Excel 文件写操作中的应用。此外，文中列举了常见单元格数据类型及其处理方法，为读者提供了全面的实践指导。 ... [详细]

蜡笔小新 2024-10-29 09:48:57
int
掌握DSP必备的56个核心问题，我已经将其收藏以备不时之需！

掌握DSP必备的56个核心问题，我已经将其收藏以备不时之需！ ... [详细]

蜡笔小新 2024-10-28 18:26:22
int
全连接神经网络应用于手写图像识别实践

2019独角兽企业重金招聘Python工程师标准转载于:https:my.oschina.netliyangkeb ... [详细]

蜡笔小新 2024-10-23 18:06:55
js
利用TensorFlow.js在网页浏览器中实现高效的人脸识别JavaScript接口

作者|VincentMühle编译|姗姗出品|人工智能头条（公众号ID：AI_Thinker）【导读】随着深度学习方法的应用，浏览器调用人脸识别技术已经得到了更广泛的应用与提升。在 ... [详细]

蜡笔小新 2024-10-23 10:50:38
int
吴裕雄数据挖掘实战案例（13）：GBDT模型的深入应用与解析

#导入第三方包importpandasaspdimportmatplotlib.pyplotasplt#读入数据defaultpd.read_excel(r&# ... [详细]

蜡笔小新 2024-10-22 01:29:43
int
MATLAB人体行为检测与识别

人体行为检测与识别摘要人体行为检测与识别是当前研究的重点，具有很高的研究价值和广阔的应用前景。主要应用在型人机交互、运动分析、智能监控和虚拟现实也称灵境技术ÿ ... [详细]

蜡笔小新 2024-10-20 19:34:31
int
WPS国际版（安卓）

软件使用前需要使用邮箱登录（没有邮箱的话自行注册一个），登录后就会看到过期时间是2032年，可以看到会员版的功能还是比较多的 ... [详细]

蜡笔小新 2024-10-20 13:10:13
int
办公百宝箱——PDF、格式转换、图片处理、屏幕录制

1.软件介绍万彩办公大师包含了60多个全部免费、无广告、无插件的办公小工具，几乎可以满足各种办公需求，如PDF工具集、文档音视频图片转换工具集、文字识 ... [详细]

蜡笔小新 2024-10-18 10:08:10

米西米西的歪国人

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章