作者:洛特大人_382 | 来源:互联网 | 2023-09-01 16:43
前言 “ 等不到风中你的脸颊
眼泪都美到很融洽
等不到掩饰的雨落下
我的眼泪被你察觉 ”
听着循环的歌曲,写着久违的bug。好吧,还是一天。正好一个小伙伴说,要不要做个工具站玩一下。我就随意的找了个工具站,看了下,发现很多都有文字的OCR识别功能。因此,我想起来之前了解的非常流行的开源的OCR大神级别的项目,Tesseract OCR。
简单介绍 官网如下所示
https://tesseract-ocr.github.io/
简洁明了,挂在github上的网站。
详细的不再介绍,感兴趣的,可以进入同志网站:https://github.com/tesseract-ocr/tesseract ,观摩学习。
实操准备 要想在开发中使用,还是需要接入对应的API。
对于开发者来说,提供了众多的Wrapper,来实现Api调用。
对于Java一名小开发,来讲,还是使用tess4j,作为Api来使用。官网如下:
http://tess4j.sourceforge.net/
可以直接下载jar包,或者采用Maven依赖下载。
net.sourceforge.tess4j tess4j 4.5.3
开发实现 First 创建工程
Second 添加依赖 4.0.0 org.example test-textocr 1.0-SNAPSHOT net.sourceforge.tess4j tess4j 4.5.3
Third 填写类文件 package ocr; import net. sourceforge. tess4j. ITesseract; import net. sourceforge. tess4j. Tesseract; import net. sourceforge. tess4j. TesseractException; import javax. imageio. ImageIO; import java. awt. image. BufferedImage; import java. io. IOException; public class TestTextOcr { public static void main ( String[ ] args) throws IOException { ITesseract instance = new Tesseract ( ) ; instance. setLanguage ( "chi_sim" ) ; instance. setOcrEngineMode ( 1 ) ; BufferedImage image = ImageIO. read ( TestTextOcr. class . getResourceAsStream ( "/2.jpg" ) ) ; try { String result = instance. doOCR ( image) ; System. out. println ( result) ; } catch ( TesseractException e) { System. err. println ( e. getMessage ( ) ) ; } } }
Fifth 添加训练语言环境配置
TESSDATA_PREFIX=F:\tessdata ,变量名,固定,值为官网下载文件 https://github.com/tesseract-ocr/tessdata
Sixth 运行 结果如下:
可能识别模式,不是很合适,切换下
instance. setOcrEngineMode ( 0 ) ;
是不是舒服多了,哈哈。识别率瞬间上涨。
大家可以自行测试。
总结 好了,今天就到这了。技术在于折腾。多学习,让自己武装起来,变强大。