我们如何以一种干净的格式提取表格文本，这将适用于所有pdf？

作者：mobiledu2402852357 | 来源：互联网 | 2023-10-11 12:52

我正尝试从e-pdf中提取表格文本，并搜索相关名称（相近）应视为相同并填充值。im

我正尝试从e-pdf中提取表格文本，并搜索相关名称（相近）应视为相同并填充值。

import tabula #from tabula import wrapper from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument #from pdfminer.pdfpage import PDFPage from pdfminer.pdfinterp import resolve1 file = open('filename','rb') file_path = 'filename' parser = PDFParser(file) document = PDFDocument(parser) # This will give you the count of pages num = resolve1(document.catalog['Pages'])['Count'] df1 = tabula.read_pdf(file_path,pages=num,stream =True) #Write the ouput in excel format df1.to_excel("myoutput1.xlsx",sheet_name='Mainsheet'

推荐阅读

io
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
io
OBS Studio自动化实践：利用脚本批量生成录制场景

本文探讨了如何利用OBS Studio进行高效录屏，并通过脚本实现场景的自动生成。适合对自动化办公感兴趣的读者。 ... [详细]

蜡笔小新 2024-11-21 10:44:53
io
解决Pytesser模块在Windows环境下出现的错误

本文详细探讨了如何解决在Windows环境中使用Pytesser模块进行OCR（光学字符识别）时遇到的WindowsError错误，提供了具体的解决方案。 ... [详细]

蜡笔小新 2024-11-19 11:32:27
buffer
Java程序设计复习题

1、编写一个Java程序在屏幕上输出“你好！”。programmenameHelloworld.javapublicclassHelloworld{publicst ... [详细]

蜡笔小新 2024-11-22 20:05:03
io
binlog2sql，你该知道的数据恢复工具

binlog2sql，你该知道的数据恢复工具 ... [详细]

蜡笔小新 2024-11-22 18:58:43
io
使用Matlab创建动态GIF动画

动态GIF图可以有效增强数据表达的直观性和吸引力。本文将详细介绍如何利用Matlab软件生成动态GIF图，涵盖基本代码实现与高级应用技巧。 ... [详细]

蜡笔小新 2024-11-22 16:52:32
io
WPF菜单控件前景与背景颜色设置指南

尽管在WPF中工作了一段时间，但在菜单控件的样式设置上遇到了一些基础问题，特别是关于如何正确配置前景色和背景色。 ... [详细]

蜡笔小新 2024-11-22 15:30:54
io
配置 Apache 虚拟主机详解

本文详细介绍如何在 Apache 中设置虚拟主机，包括基本配置和高级设置，帮助用户更好地理解和使用虚拟主机功能。 ... [详细]

蜡笔小新 2024-11-22 15:04:59
eval
为何 TypeScript 如此流行而 Python 类型注解却鲜少使用？

本文探讨了Python类型注解使用率低下的原因，主要归结于历史背景和投资回报率（ROI）的考量。文章不仅分析了类型注解的实际效用，还回顾了Python类型注解的发展历程。 ... [详细]

蜡笔小新 2024-11-22 14:02:28
io
Zabbix自定义监控与邮件告警配置实践

本文详细介绍了如何在Zabbix中添加自定义监控项目，配置邮件告警功能，并解决测试告警时遇到的邮件不发送问题。 ... [详细]

蜡笔小新 2024-11-22 08:33:19
grid
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
grid
笔记本电脑实用快捷键指南

本文详细介绍了笔记本电脑上多种实用的快捷键，包括屏幕调整、图形设置、分辨率更改、驱动更新、导航操作、音量控制及屏幕锁定等，旨在帮助用户更高效地使用笔记本电脑。 ... [详细]

蜡笔小新 2024-11-20 17:06:52
io
探究64位Linux系统下32位程序的兼容性问题——以OpenVPN为例

本文通过分析一个具体的案例，探讨了64位Linux系统对32位应用程序的兼容性问题。案例涉及OpenVPN客户端在64位系统上的异常行为，通过逐步排查和代码测试，最终定位到了与TUN/TAP设备相关的系统调用兼容性问题。 ... [详细]

蜡笔小新 2024-11-20 16:34:58
io
php + layui 文件上传以及拖拽上传

HTML:　　将文件拖拽到此区域 ... [详细]

蜡笔小新 2024-11-20 14:27:32
io
如何高效解决Android应用ANR问题？

本文介绍了ANR（应用程序无响应）的基本概念、常见原因及其解决方案，并提供了实用的工具和技巧帮助开发者快速定位和解决ANR问题，提高应用的用户体验。 ... [详细]

蜡笔小新 2024-11-19 19:31:48

mobiledu2402852357

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章