当前位置: 开发笔记 > 后端 > 正文

pdfminer3k在pdf中提取文本_文本中提取数值进行计算

作者：我就是人家 | 来源：互联网 | 2023-08-16 12:24

前几天有学员问了个问题，如图所示，求合格率，要求是表格不能有任何的改动，只能用公式实现。我的第一反应是：这个表

前几天有学员问了个问题&＃xff0c;如图所示&＃xff0c;求合格率&＃xff0c;要求是表格不能有任何的改动&＃xff0c;只能用公式实现。

我的第一反应是&＃xff1a;这个表中的文本幸好是非常有规律和规范的&＃xff0c;用函数就可以轻松实现。当然&＃xff0c;如果学员再学点VB的知识&＃xff0c;那这个就非常容易实现了。

作为基础课程&＃xff0c;我们还是再熟悉一下函数&＃xff0c;看看我们通过公式如何来解决这种有规律的文本问题。

分析

很明显&＃xff0c;计算合格率&＃xff0c;我们必须将数字从文本中提取出来&＃xff0c;我们可以看到出现的第一个数字是在“查”字之后&＃xff0c;第一个“处”字之前&＃xff0c;所以这第一组数据的提取可以这样做&＃xff1a;

第一&＃xff1a;数字是从第3位开始的&＃xff0c;我们提取的时候从第3位进行提取&＃xff1b;

第二&＃xff1a;“处”之前就是数字的最后一位了&＃xff0c;所以我们只需要去掉处所在的位置&＃xff0c;那么留下的就是整个要提取的数字部分了&＃xff1b;

第一组数据提取

通过上面的分析&＃xff0c;我们提取的话&＃xff0c;肯定会用到MID这个函数&＃xff0c;也就是从什么地方开始&＃xff0c;到什么地方结束&＃xff0c;提取中间的内容。

我们来把公式拆解进行理解&＃xff1a;

&＃61;MID(文本内容&＃xff0c;开始位置&＃xff0c;留下几个文本)

文本内容&＃xff1a;抽查500处&＃xff0c;合格114处

开始位置&＃xff1a;3

留下文本数量&＃xff1a;3

很显然&＃xff0c;难点是这个留下的文本数量&＃xff0c;因为是500的时候&＃xff0c;你要留下3个文本&＃xff0c;那一位数或两位数的时候&＃xff0c;你需要留下的就是一个或两个文本了&＃xff0c;这个数量就是变化的&＃xff0c;所以我们要以不变应万变。我们这里只能通过“处”的位置来确定。

还记得上一节给大家讲过的Find函数吧。我们通过Find函数看看“处”字在什么位置就好了。所以公式是&＃xff1a;

&＃61;Find(“处”&＃xff0c;文本内容所在单元格)&＃xff0c;即如下图所示&＃xff1a;

把这结束位置减去这个起始位置&＃xff0c;得到的不就是中间文本的长度么&＃xff1f;而且开始位置固定就是从3开始。所以公式的整合就是&＃xff1a;

将公式套入进去应该是&＃xff1a;

&＃61;MID(B3,3,FIND(“处”,B3)-3)

是不是非常容易就得出了我们要求合格率的分母。

第二组数据的提取

按照上面的逻辑&＃xff0c;我们的开始位置可以是从“格”字开始&＃xff0c;留取直到倒数第二位的文本长度就可以了。
所以根据上述的分析&＃xff0c;我们找第二组数据的开始位置。

找到“格”字之后再往后增加一位就是了&＃xff0c;所以公式是&＃xff1a;

&＃61;FIND(“格”,B3)&＃43;1

结果是10&＃xff0c;同样根据前面的逻辑&＃xff0c;我们看到最后的一个“处”字只占据一个字符&＃xff0c;那么我们可以根据文本的总长度来进行计算。这里LEN函数就是计算文本总长度的。

即&＃xff1a;&＃61;LEN(B3)

文本总长度是&＃xff1a;13

我们最终要留下的长度是3位&＃xff0c;所以直接是13-10就可以了。如图所示&＃xff1a;

所以把所有的公式套入其中&＃xff0c;就应该是&＃xff1a;

&＃61;MID(B3,(FIND("格",B3)&＃43;1),LEN(B3)-(FIND("格",B3)&＃43;1)

这样也就轻松了获取了我们要的分子。

最终结果

上述提取了这两组数据&＃xff0c;计算合格率就非常简单了。直接套入就好了&＃xff1a;
&＃61;(MID(B3,(FIND("格",B3)&＃43;1),LEN(B3)-(FIND("格",B3)&＃43;1)))/(MID(B3,3,FIND("处",B3)-3))

如图&＃xff1a;

大功告成&＃xff01;

&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;

所以当你遇到一个问题需要解决的时候&＃xff0c;尤其是需要公式进行套用或嵌套的时候&＃xff0c;没必要一把到位&＃xff0c;先分解后再合并也是写正确公式的一种做法&＃xff0c;而且自己还能从中找到分析解决问题的方法。

如果你有其他更多的方法&＃xff0c;欢迎留言一起交流学习。

推荐阅读

nlp
优化后的标题：探讨未来长期发展路径的解决方案

优化后的摘要：本文详细分析了当前面临的挑战和机遇，结合具体实例探讨了如何通过创新和改革来推动长期可持续发展。文中还介绍了多种可行的解决方案，并强调了在不同阶段实施这些方案的重要性。 ... [详细]

蜡笔小新 2024-12-20 17:49:13
nlp
使用 VS2010 Report Viewer 实现生产良率报表中的行列分组累乘

在过去两周中，我们利用 ReportViewer 开发了与生产良率相关的报表，其中每个制程的直通率是所有测试项良率的乘积。由于 ReportViewer 没有内置的累乘函数，因此需要借助自定义代码来实现这一功能。本文将详细介绍实现步骤和相关代码。 ... [详细]

蜡笔小新 2024-12-25 17:12:03
nlp
Windows 2000 中启用 TELNET 服务时的 NTLM 验证配置

本文详细介绍了在 Windows 2000 系统中启用 TELNET 服务时需要注意的 NTLM 配置问题，帮助用户解决常见的身份验证失败错误。 ... [详细]

蜡笔小新 2024-12-24 11:20:52
struct
磁盘健康检查与维护

在计算机系统运行过程中，硬件或电源故障可能会导致文件系统出现异常。为确保数据完整性和系统稳定性，定期进行磁盘健康检查至关重要。本文将详细介绍如何使用fsck和badblocks工具来检测和修复文件系统及硬盘扇区的潜在问题。 ... [详细]

蜡笔小新 2024-12-23 13:17:57
struct
MindManager项目管理与甘特图应用

本文介绍了MindManager在项目管理中的强大功能，特别是其内置的甘特图工具。通过该工具，用户可以轻松创建和管理项目计划，优化任务分配，并与其他软件无缝集成。 ... [详细]

蜡笔小新 2024-12-23 11:08:12
java
雨林木风 GHOST XP SP3 经典珍藏版 V2017.11

雨林木风 GHOST XP SP3 经典珍藏版 V2017.11 ... [详细]

蜡笔小新 2024-12-22 21:59:11
漏洞
USDC 面临的信任危机：多方探讨其稳定性及潜在救援方案

本文深入分析了 USDC 的稳定性和可能的救援措施，探讨了在硅谷银行破产后 USDC 面临的风险以及行业内的反应。 ... [详细]

蜡笔小新 2024-12-22 16:05:49
java
实用正则表达式有哪些

小编给大家分享一下实用正则表达式有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下 ... [详细]

蜡笔小新 2024-12-22 13:59:04
struct
VC++如何监控cpu fan 转速?

主板IO用W83627THG,用VC如何取得CPU温度,系统温度,CPU风扇转速,VBat的电压. ... [详细]

蜡笔小新 2024-12-22 13:48:42
struct
VBA编程技巧：动态执行保存为变量的代码行

本文探讨了如何在VBA中动态执行保存为变量的代码行，特别是针对不同表单的字段引用。通过示例和详细的解答，帮助读者掌握这一技术。 ... [详细]

蜡笔小新 2024-12-22 11:24:17
java
深入解析：Android 视频处理开源框架

本文将详细介绍多个流行的 Android 视频处理开源框架，包括 ijkplayer、FFmpeg、Vitamio、ExoPlayer 等。每个框架都有其独特的优势和应用场景，帮助开发者更高效地进行视频处理和播放。 ... [详细]

蜡笔小新 2024-12-21 19:49:35
java
关于批处理的碎碎念

1，bat由来：BATCH，一批，成批作业，批处理文件后缀BAT就取的前三个字母。2，Pingsz.tencent.com>a.txt>的作用为， ... [详细]

蜡笔小新 2024-12-21 10:55:47
java
解决Classic ASP与PHP HMAC_SHA256哈希结果不一致的问题

本文探讨了如何在Classic ASP中实现与PHP的hash_hmac('SHA256', $message, pack('H*', $secret))函数等效的哈希生成方法。通过分析不同实现方式及其产生的差异，提供了一种使用Microsoft .NET Framework的解决方案。 ... [详细]

蜡笔小新 2024-12-21 10:38:09
java
Java SpringMVC SSM 实现多模块集成：操作日志、文件管理、头像编辑、权限控制及缓存优化

本文介绍了一个基于 Java SpringMVC 和 SSM 框架的综合系统，涵盖了操作日志记录、文件管理、头像编辑、权限控制、以及多种技术集成如 Shiro、Redis 等，旨在提供一个高效且功能丰富的开发平台。 ... [详细]

蜡笔小新 2024-12-20 19:17:47
java
JavaScript 数组数据的合并与处理

本文介绍了如何在 JavaScript 中对两个结构不同的数组进行数据合并，提供详细的代码示例和解释。 ... [详细]

蜡笔小新 2024-12-20 15:35:41

我就是人家

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章