2019独角兽企业重金招聘Python工程师标准>>>
常工作和生活中,常常需要将纸质文件转换成可编辑的文本,一字一句地手动输入非常浪费时间,好在随着科技的发展,很多OCR软件公司争相推出了图片文字识别软件,有了它,只需将纸质文件拍照或扫描,就能将其转化为可编辑的文本,方便又快捷。但在操作过程中,由于拍照光线等问题导致图片模糊而引起的图片文字识别率不高是很多人的困扰,对文件进行拍照需要一定的技巧和实践,相机的性能与拍摄条件也很重要哦。
文件拍照技巧
拍照之前:
1、确保页面完全契合在镜头框之内;
2、确保光线均匀分布于页面,且不存在暗区或阴影;
3、如有需要可将页面放平,然后将相机位置调整到与文件页面平行,以便镜头能够对准所拍摄文本的中心区域。
数码相机配置
最低配置
?200万像素传感器
?变焦透镜(定焦相机、普通手机相机以及手持拍照设备拍摄出的图像一般不适合OCR)
推荐配置
?500万像素传感器
?闪光禁用功能
?手动光圈控制或光圈优先模式
?手动对焦
?防抖动系统,否则推荐使用三脚架
?光学变焦
拍摄模式
光线
确保光线充足(日光最佳)。如使用人工照明,则需要使用两个投射光源,防止出现阴影。
相机定位
尽量使用三脚架。将镜头位置调整到与文件页面平行,并将镜头对准文本中心区域。如采用全光学变焦,相机与文件之间的距离必须足以将整个文件契合至镜头框之内,通常该距离为50-60 cm。
闪光
尽量关闭闪光以避免页面出现炫光及锐化阴影。如光线不足,请尝试在50cm的距离使用闪光,或使用辅助照明(推荐)。注意!在拍摄光面纸文件时使用闪光将造成极差的炫光。
白平衡
如果相机具有白平衡选项,建议使用一张白纸对白平衡进行校准,否则请选择最适合当前光线条件的白平衡模式。
如遇光线不足、照片太暗、对比度太低、照片不够清晰等问题,请参考各种情况下如何提高ABBYY FineReader 12照相质量寻找解决方案。
文件扫描技巧
识别质量很大程度上取决于图像的质量,而图像的质量取决于扫描设置。
字体太小
扫描字体小、分辨率较高的印刷文件时,典型文本推荐采用300dpi(10pt或更大的字体),更小的字体(9pt或更小)的印刷文本采用400-600dpi。
调节亮度
以黑白模式扫描时,可能需要调整亮度设置。大多数情况下,50%的中间值就已足够,但是如果生成的图像含有许多“断裂”或“拥簇”叠加的情况,请参考PDF Transformer+“调整亮度”警告消息解决办法。
印刷质量
印刷质量不佳的文件,如存在“杂点”(如随机黑点或斑点)、模糊及不规整文字或偏斜线及偏移表格边框的情况,最好采用灰阶模式进行扫描。在识别从低级到中等印刷质量的文件时,灰阶模式可以保留更多扫描文本中的文字信息。
更多关于ABBYY FineReader 12OCR技术的信息,可点击进入ABBYY中文网站查看相关的信息。