R语言OCR文字识别

作者：毛云龙hei | 来源：互联网 | 2023-10-10 15:12

利用R语言中的tesseract包进行中英文pdf与

点击关注了解更多哦

本文主要介绍利用R语言中的tesseract包进行中英文pdf与图片的OCR文字识别，目前tesseract能够支持100多种语言^[1]。

1.准备工作

首先需要安装tesseract包，由于tesseract包中不自带中文语言库，需要使用tesseract_download() 函数进行下载，如下载失败可后台回复20220408获取，将中文语言库chi_sim文件放置在 #$datapath路径下。同时分别准备中英文的图片与pdf文档，如下所示。

setwd("C:\\Users\\Acer\\Desktop") #工作路径 install.packages("tesseract") #install library(tesseract) #加载，需要等待数分钟 tesseract_download("chi_sim") #下载中文简体数据，如失败可在后台获取 tesseract_info() #$datapath #[1] "C:\\Users\\Acer\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/" #$available #[1] "chi_sim" "chi_sim_vert" "eng" "osd"

2.图片文字识别

2.1中文图片文字识别

jpgtext_CHN <- tesseract::ocr("CHN_OCR.jpg", engine = tesseract("chi_sim")) cat(jpgtext_CHN) #中央气象台 4 月 8 日 06 时继续发布大霁黄色 #预警 : 预计 ,4 月 8 日白天至夜间 , 渤海北 #部海域、辽东半岛东部沿岸海域、山东半 #岛南部沿岸海域、江芬南部沿岸海域、长 #江口附近海域、浙江东部沿岸海域将有能 #见度不足 1 公里的大需天气。此外 ,8 日早 #晨至上协 , 安徽北部、山东半岛震部等地 #的部分地区有大雾天气。 #.....

2.2英文图片文字识别

jpgtext_eng <- tesseract::ocr("engOCR.jpg", engine = tesseract("eng")) cat(jpgtext_eng) #--- Lesson 2 Breakfast or lunch? #It was Sunday. #| never get up early on Sundays. #| sometimes stay in bed until lunchtime. #Last Sunday | got up very late. #| looked out of the window. It was dark #outside. #‘What a day!" | thought. ‘It's raining again.’ #Just then, the telephone rang #.....

3.pdf文字识别

3.1中文pdf文字识别

pdftext_CHN <- tesseract::ocr("CHN_OCR.pdf", engine = tesseract("chi_sim")) cat(pdftext_CHN) #长训中游城市群发展 “ 十四五 “ 实施方案 #长江中游城市群地跨湖北、湖南、江西三省 , 承东启西、连 #南接北 , 是推动长江经济带发展、促进中部地区崛起、巩固 “ 两 #横三纵 “ 城镇化战略格局的重点区域 , 在我国经济社会发展格局 #中具有重要地位。为加快长江中游城市群协同发展 , 依据《中华 #人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景 #目标纲要》与《中共中央、国务院关于新时代推动中部地区高质 #量发展的意见》, 编制本实施方案。 #.....

3.2英文pdf文字识别

pdftext_eng <- tesseract::ocr("engOCR.pdf", engine = tesseract("eng")) cat(pdftext_eng) #Training elephants #Two main techniques have been used for training elephants, which we may call re#spectively the tough and #the gentle. The former method simply consists of setting an elephant to work an#d beating him until he does what is #expected of him. Apart from moral considerations this is a stupid method of tra#ining, for it produces a resentful #animal who at a later stage may well turn man-killer. The gentle method require#s more patience in the early stages, #but produces a cheerful, good-tempered elephant who will give many years of loy#al service. #.....

其他

更多内容及使用介绍可参考tesseract的参考手册^[2]及帮助文档^[3]。

参考资料

[1]

Traineddata Files for Version 4.00 +: https://tesseract-ocr.github.io/tessdoc/Data-Files

[2]

tesseract: https://cran.r-project.org/web/packages/tesseract/index.html

[3]

Using the Tesseract OCR engine in R: https://cran.r-project.org/web/packages/tesseract/vignettes/intro.html

推荐阅读

string
Kubernetes Services详解

本文深入探讨了Kubernetes中的服务（Services）概念，解释了如何通过Services实现Pods之间的稳定通信，以及如何管理没有选择器的服务。 ... [详细]

蜡笔小新 2024-11-24 18:37:01
string
详解JLine ConsoleReader.drawBuffer() 方法及其应用实例

本文深入探讨了JLine库中的ConsoleReader.drawBuffer()方法的使用场景和具体实现，通过多个实际代码示例，帮助开发者更好地理解和应用此方法。 ... [详细]

蜡笔小新 2024-11-27 12:41:57
grid
Activity跳转动画无缝衔接

Activity跳转动画无缝衔接 ... [详细]

蜡笔小新 2024-11-27 11:40:35
grid
MVC框架下使用DataGrid实现时间筛选与枚举填充

本文介绍如何在ASP.NET MVC项目中利用DataGrid组件增强搜索功能，具体包括使用jQuery UI的DatePicker插件添加时间筛选条件，并通过枚举数据填充下拉列表。 ... [详细]

蜡笔小新 2024-11-27 11:02:33
grid
初学者指南：使用CSS为博客园文章中的超链接添加图标

作为一名CSS初学者，我在博客园中尝试通过CSS美化页面，特别是为超链接添加图标，以提升阅读体验。本文将分享如何使用CSS和字体图标库来实现这一功能。 ... [详细]

蜡笔小新 2024-11-27 08:43:46
object
深入解析Android中的SQLite数据库

SQLite是一种轻量级的关系型数据库管理系统，尽管体积小巧，却能支持高达2TB的数据库容量，每个数据库以单个文件形式存储。本文将详细介绍SQLite在Android开发中的应用，包括其数据存储机制、事务处理方式及数据类型的动态特性。 ... [详细]

蜡笔小新 2024-11-26 21:57:20
object
字符、字符串和文本的处理之Char类型

.NetFramework中处理字符和字符串的主要有以下这么几个类:(1)、System.Char类一基础字符串处理类(2)、System.String类一处理不可变的字符串(一经 ... [详细]

蜡笔小新 2024-11-26 21:04:40
flutter
基于Flutter实现风车加载组件的制作_Android

Flutter官方提供了诸如 CircularProgressIndicator和 LinearProgressIndicator两种常见的加载指示组件，但是说实话，实在太普通，所 ... [详细]

蜡笔小新 2024-11-26 17:46:50
install
Mac环境下Python与MySQL交互指南

本文详细介绍了在Mac操作系统中使用Python连接MySQL数据库的方法，包括常见的错误处理及解决方案。 ... [详细]

蜡笔小新 2024-11-26 17:41:41
jsp
精选Eclipse插件概览

本文介绍了多种Eclipse插件，包括XML Schema Infoset Model (XSD)、Graphical Editing Framework (GEF)、Eclipse Modeling Framework (EMF)等，涵盖了从Web开发到图形界面编辑的多个方面。 ... [详细]

蜡笔小新 2024-11-26 16:20:20
string
Oracle RMAN 增量备份详解：差异增量与累积增量

本文详细介绍了Oracle RMAN中的增量备份机制，重点解析了差异增量和累积增量备份的概念及其在不同Oracle版本中的实现。通过对比两种备份方式的特点，帮助读者选择合适的备份策略。 ... [详细]

蜡笔小新 2024-11-25 19:07:53
perl
为何第三个div会影响其他两个div？

探讨了在使用内联块（inline-block）元素布局时，第三个div如何影响前两个div的位置，并提供了具体的解决方案。 ... [详细]

蜡笔小新 2024-11-25 16:33:53
char
深入理解XSS漏洞及其防范措施

本文详细介绍了跨站脚本攻击（XSS）的基本概念、工作原理，并通过实际案例演示如何构建XSS漏洞的测试环境，以及探讨了XSS攻击的不同形式和防御策略。 ... [详细]

蜡笔小新 2024-11-24 21:14:20
jar
如何使用Maven将依赖插件一并打包进JAR文件

本文详细介绍了在使用Maven构建项目时，如何将所需的依赖插件一同打包进最终的JAR文件中，以避免手动部署依赖库的麻烦。 ... [详细]

蜡笔小新 2024-11-23 22:51:34
grid
WPF菜单控件前景与背景颜色设置指南

尽管在WPF中工作了一段时间，但在菜单控件的样式设置上遇到了一些基础问题，特别是关于如何正确配置前景色和背景色。 ... [详细]

蜡笔小新 2024-11-22 15:30:54

毛云龙hei

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章