TesseractOCR下载安装和使用

作者：凡心悟事 | 来源：互联网 | 2023-09-08 18:31

一.简介Tesseract是一个由HP实验室开发由Google维护的开源的光学字符识别（OCR）引擎，可以在Apache2.0许可下获得。它可以直接使用，或者（对于程序员）使用AP

一、简介
Tesseract是一个由HP实验室开发由Google维护的开源的光学字符识别&＃xff08;OCR&＃xff09;引擎&＃xff0c;可以在 Apache 2.0 许可下获得。它可以直接使用&＃xff0c;或者&＃xff08;对于程序员&＃xff09;使用 API 从图像中提取输入&＃xff0c;包括手写的或打印的文本。
与Microsoft Office Document Imaging&＃xff08;MODI&＃xff09;相比&＃xff0c;我们可以不断的训练的库&＃xff0c;使图像转换文本的能力不断增强&＃xff1b;
训练的大致流程&＃xff1a;安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的 traineddata 放入tessdata 中。
如果团队深度需要&＃xff0c;还可以以它为模板&＃xff0c;开发出符合自身需求的OCR引擎。

二、下载
以下是关于Tesseract的常用网址
下载地址&＃xff1a;https://digi.bib.uni-mannheim.de/tesseract/
官方网站&＃xff1a;https://github.com/tesseract-ocr/tesseract
官方文档&＃xff1a;https://github.com/tesseract-ocr/tessdoc
语言包地址&＃xff1a;https://github.com/tesseract-ocr/tessdata
注意事项:
1.尽量不要下载dev(开发中的版本)&＃xff0c;alpha(内部测试版,一般不向外部发布,会有很多Bug)&＃xff0c;beta(公测版本&＃xff0c;即针对所有用户公开的测试版本)等版本。
2.建议下载最新稳定版本&＃xff1a;
tesseract-ocr-w64-setup-v5.0.0.20190623.exe 2019-06-23 11:30 38M

三、安装
1.开始安装

2.许可协议

3.选择要安装的用户

4.选择附带要安装的语言包
此后会在安装过程中会自动从服务器下载该语言包。&＃xff08;这里不太建议勾选下载语言包&＃xff0c;因为下载速度实在太慢。本教程后续会介绍如何拓展语言包&＃xff0c;但如果已经翻墙的话&＃xff0c;可以忽略这个建议。&＃xff09;

5.设置安装目的地址&＃xff0c;后续设置环境变量时需要用到。

6.选择要创建程序快捷方式的启动菜单文件夹,一般默认即可

7.完成安装

四、设置环境变量
1.设置环境变量
进入环境变量中&＃xff0c;在path中新建tesseract的安装路径使用win&＃043;r弹出“运行”命令框&＃xff0c;输入sysdm.cpl打开系统属性。

2.在“高级”中打开“环境变量”

3.在“系统变量”中找到“Path"&＃xff0c;双击进入

4.加入安装过程中设置的地址

之后连续点击确定三次&＃xff0c;依次关闭这三个窗口。

五、安装检验及语言包拓展
1.查看是否安装成功
打开cmd&＃xff0c;输入tesseract -v回车&＃xff0c;若显示版本号即为安装成功。

2.查看已经安装的语言
在cmd中输入tesseract &＃8211;list-langs回车&＃xff0c;若显示版本号即为安装成功。

3.拓展语言包
在下载步骤中找到语言包地址的链接&＃xff0c;下载所需要的的语言包&＃xff0c;如图

下载后将该包直接放在程序安装目录的tessdata文件夹中里面即可&＃xff0c;如图

六、Python实例运用
1.测试样图

2.测试代码

import pytesseract from PIL import Image def demo(): # 打开要识别的图片 image &＃061; Image.open(&＃039;D:/Programming_development/Python/material/横渠四句.png&＃039;) # 使用pytesseract调用image_to_string方法进行识别&＃xff0c;传入要识别的图片&＃xff0c;lang&＃061;&＃039;chi_sim&＃039;是设置为中文识别&＃xff0c; text &＃061; pytesseract.image_to_string(image, lang&＃061;&＃039;chi_sim&＃039;) #输入所识别的文字 print(text) if __name__ &＃061;&＃061; &＃039;__main__&＃039;: demo()

3.测试结果

来源：半濠春水

推荐阅读

text
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
sum
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
split
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
ip
Python应用实例大揭秘：七大令人惊叹的高阶技巧展示

2020年，Python无疑成为了最炙手可热的编程语言，其影响力已远远超出程序员的范畴。从初学者到资深从业者，甚至小学生，都在纷纷加入Python的学习热潮中。凭借其低门槛、易上手和强大的功能，Python正逐渐成为各行业不可或缺的工具。本文将揭示七个令人惊叹的Python高级应用技巧，帮助读者进一步提升编程水平。 ... [详细]

蜡笔小新 2024-11-11 15:04:48
object
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
split
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
split
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
ip
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
ip
使用多项式拟合分析淘宝双11销售趋势

根据天猫官方数据，2019年双11成交额达到2684亿元，再次刷新历史记录。本文通过多项式拟合方法，分析并预测未来几年的销售趋势。 ... [详细]

蜡笔小新 2024-11-12 16:57:26
text
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
version
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
version
Go语言中的命令设计模式详解

命令模式是一种行为设计模式，它将请求封装成一个独立的对象，从而允许你参数化不同的请求、队列请求或者记录请求日志。本文将详细介绍命令模式的基本概念、组件及其在实际场景中的应用。 ... [详细]

蜡笔小新 2024-11-12 09:26:59
object
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
object
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
sum
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30

凡心悟事

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章