热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

提高OCR识别率的一些菜鸟方法

原稿的质量直接影响到最后OCR的正确率,因此先要适当调整原稿。对于低质量稿件,可考虑在扫描前用复印机先行复印并适当调节对比度和亮度,使背景变成白色,而文字色泽保持黑色即可。经过复印以后的报
  1. 原稿的质量直接影响到最后OCR的正确率,因此先要适当调整原稿。对于低质量稿件,可考虑在扫描前用复印机先行复印并适当调节对比度和亮度,使背景变成白色,而文字色泽保持黑色即可。经过复印以后的报纸,OCR的识别率有明显的提高。
  2. 扫描过程中一定要将原稿摆正,否则OCR软件将无法正确识别。如果无法将原稿摆正,可使用 “自动倾斜校正”或者“手动纠斜”功能纠正字体的倾斜。选择适当的扫描参数也很重要,一般OCR是原稿应扫描为“黑白二值”,扫描文字的亮度和对比度对文字的正确识别非常关键,我们可以通过“放大预览”对文稿中的几个文字进行取样扫描,从而对图像的亮度进行更为细致的调节,调节的工具是扫描仪工具内的“阀值”。
  3. 对于分辨率,原则上不求最“高”,只求最“佳”。若分辨率太高,扫描时间将会增加,图形所需的空间也会成倍地增长;若分辨率太低,识别率就不会很高。一般普通五号印刷体采用250~300dpi;若字号较大 (四号以上),用150~200dpi就足够了;如果是六号或七号等小字体,就要考虑使用400~600dpi。如果印刷字迹比较模糊,或笔划较多的识别文本,应适当提高扫描的分辨率。
  4. 扫描后,观察图像是否有污点现象,如有则使用图像处理软件将污点擦去。同时如果有图像存在,也会影响OCR的文字切分,可使用 “图像的块擦拭”工具将文档中的图像去除。此外,还应采用适当的辨识方式,注意稿件是横排还是竖排,可选择合适的编排格式按钮,以保持对应。如有必要还可进行版面分析,否则识别结果会有大量的空格,而OCR通常也将空白处作为识别对象。自动识别虽可很好地解决这一问题,但也常把不应分开的区域分开,造成识别结果的错误和颠倒。这时可结合自动分析与手工分析,将不恰当的版面分析删除。最后,再次适当地调节对比度和亮度,增加文字和背景的对比度,从而最终达到95%以的识别率。       

推荐阅读
author-avatar
窈窕眈眈
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有