热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

怎样提高纸质文件拍照扫描水平

2019独角兽企业重金招聘Python工程师标准常工作和生活中,常常需要将纸质文件转换成可编辑的文本,一字一句地手动输入非常浪费时间,

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

 常工作和生活中,常常需要将纸质文件转换成可编辑的文本,一字一句地手动输入非常浪费时间,好在随着科技的发展,很多OCR软件公司争相推出了图片文字识别软件,有了它,只需将纸质文件拍照或扫描,就能将其转化为可编辑的文本,方便又快捷。但在操作过程中,由于拍照光线等问题导致图片模糊而引起的图片文字识别率不高是很多人的困扰,对文件进行拍照需要一定的技巧和实践,相机的性能与拍摄条件也很重要哦。

  文件拍照技巧

  拍照之前:

  1、确保页面完全契合在镜头框之内;

  2、确保光线均匀分布于页面,且不存在暗区或阴影;

  3、如有需要可将页面放平,然后将相机位置调整到与文件页面平行,以便镜头能够对准所拍摄文本的中心区域。

  数码相机配置

  最低配置

  ?200万像素传感器

  ?变焦透镜(定焦相机、普通手机相机以及手持拍照设备拍摄出的图像一般不适合OCR)

  推荐配置

  ?500万像素传感器

  ?闪光禁用功能

  ?手动光圈控制或光圈优先模式

  ?手动对焦

  ?防抖动系统,否则推荐使用三脚架

  ?光学变焦

  拍摄模式

  光线

  确保光线充足(日光最佳)。如使用人工照明,则需要使用两个投射光源,防止出现阴影。

22105618_lBJp.png

22105618_nTum.png

  相机定位

  尽量使用三脚架。将镜头位置调整到与文件页面平行,并将镜头对准文本中心区域。如采用全光学变焦,相机与文件之间的距离必须足以将整个文件契合至镜头框之内,通常该距离为50-60 cm。

  闪光

  尽量关闭闪光以避免页面出现炫光及锐化阴影。如光线不足,请尝试在50cm的距离使用闪光,或使用辅助照明(推荐)。注意!在拍摄光面纸文件时使用闪光将造成极差的炫光。

22105618_OYdV.png

22105618_st8t.png

  白平衡

  如果相机具有白平衡选项,建议使用一张白纸对白平衡进行校准,否则请选择最适合当前光线条件的白平衡模式。

  如遇光线不足、照片太暗、对比度太低、照片不够清晰等问题,请参考各种情况下如何提高ABBYY FineReader 12照相质量寻找解决方案。

  文件扫描技巧

  识别质量很大程度上取决于图像的质量,而图像的质量取决于扫描设置。

  字体太小

  扫描字体小、分辨率较高的印刷文件时,典型文本推荐采用300dpi(10pt或更大的字体),更小的字体(9pt或更小)的印刷文本采用400-600dpi。

  调节亮度

  以黑白模式扫描时,可能需要调整亮度设置。大多数情况下,50%的中间值就已足够,但是如果生成的图像含有许多“断裂”或“拥簇”叠加的情况,请参考PDF Transformer+“调整亮度”警告消息解决办法。

  印刷质量

  印刷质量不佳的文件,如存在“杂点”(如随机黑点或斑点)、模糊及不规整文字或偏斜线及偏移表格边框的情况,最好采用灰阶模式进行扫描。在识别从低级到中等印刷质量的文件时,灰阶模式可以保留更多扫描文本中的文字信息。

  更多关于ABBYY FineReader 12OCR技术的信息,可点击进入ABBYY中文网站查看相关的信息。



转:https://my.oschina.net/abbyychina/blog/664256



推荐阅读
  • 【图像分类实战】利用DenseNet在PyTorch中实现秃头识别
    本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先,文章概述了项目所需的库和全局参数设置。接着,对图像进行预处理并读取数据集。随后,构建并配置DenseNet模型,设置训练和验证流程。最后,通过测试阶段验证模型性能,并提供了完整的代码实现。本文不仅涵盖了技术细节,还提供了实用的操作指南,适合初学者和有经验的研究人员参考。 ... [详细]
  • 掌握这些技巧,轻松获取超过90%的资源信息
    在数字时代,高效获取所需资源是每个人必备的技能。本文将分享一系列实用技巧,帮助读者轻松获取超过90%的网络资源信息,无论是学术资料、技术文档还是最新资讯,都能迅速找到。通过优化搜索引擎使用、利用专业数据库和社群资源等方法,读者将能够在信息海洋中游刃有余。 ... [详细]
  • 如何将PD文件转换为Word文档?PD格式的设置技巧与方法 ... [详细]
  • 批量将多张图片转换为PDF或PPT文件
    本文介绍了如何批量将多张图片转换为PDF或PPT文件的方法。首先,可以通过批量下载工具或脚本高效地获取大量图片。接着,利用专业的图像处理软件或在线服务,将这些图片统一转换为所需的PDF或PPT格式,确保文件质量和一致性。此外,文中还提供了手动抓取单张图片进行初步测试的建议,以验证转换效果。 ... [详细]
  • 基于OpenCV的图像拼接技术实践与示例代码解析
    图像拼接技术在全景摄影中具有广泛应用,如手机全景拍摄功能,通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法,并提供了示例代码解析,帮助读者深入理解该技术的实现过程。 ... [详细]
  • Python ATM与购物车项目实战:深入解析三层架构设计
    本文详细解析了Python ATM与购物车项目的三层架构设计,重点介绍了MVC(Model-View-Controller)模式的应用。在用户界面层,系统通过图形化界面与用户进行交互,接收并处理用户的输入数据,随后将这些数据传递给控制层进行进一步处理。该层不仅负责展示信息,还承担了用户请求的初步处理任务。 ... [详细]
  • 使用 ListView 浏览安卓系统中的回收站文件 ... [详细]
  • MATLAB字典学习工具箱SPAMS:稀疏与字典学习的详细介绍、配置及应用实例
    SPAMS(Sparse Modeling Software)是一个强大的开源优化工具箱,专为解决多种稀疏估计问题而设计。该工具箱基于MATLAB,提供了丰富的算法和函数,适用于字典学习、信号处理和机器学习等领域。本文将详细介绍SPAMS的配置方法、核心功能及其在实际应用中的典型案例,帮助用户更好地理解和使用这一工具箱。 ... [详细]
  • Python爬虫数据导出至CSV及图片存储技术详解
    Python爬虫数据导出至CSV及图片存储技术详解 ... [详细]
  • 本文深入探讨了HTTP头部中的Expires与Cache-Control字段及其缓存机制。Cache-Control字段主要用于控制HTTP缓存行为,其在HTTP/1.1中得到了广泛应用,而HTTP/1.0中主要使用Pragma:no-cache来实现类似功能。Expires字段则定义了资源的过期时间,帮助浏览器决定是否从缓存中读取资源。文章详细解析了这两个字段的具体用法、相互关系以及在不同场景下的应用效果,为开发者提供了全面的缓存管理指南。 ... [详细]
  • 机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ... [详细]
  • 创建一个水平滚动的表格视图
    本文介绍了如何创建一个水平滚动的表格视图,通过使用 `UITableView` 的变换属性 `transform` 和 `CGAffineTransformMakeRotation` 方法,实现视图的水平滚动效果。此外,还详细探讨了相关布局调整和性能优化技巧,确保在不同设备上都能获得流畅的用户体验。 ... [详细]
  • 本文详细介绍了在 Python 中使用 OpenCV 进行图像处理的各种方法和技巧,重点讲解了腐蚀(erode)和膨胀(dilate)操作,以及开运算和闭运算的应用。腐蚀操作可以去除前景物体的边缘部分,而膨胀操作则可以扩展前景物体的边界。开运算和闭运算则是结合这两种基本操作,用于消除图像中的噪声和填充空洞,提高图像处理的效果。通过具体的代码示例和实际应用案例,读者可以深入理解这些技术在图像处理中的重要作用。 ... [详细]
  • 如何在微信文章中插入附件文档:详细教程与技巧分享
    对于众多企业和教育机构的微信公众号而言,在发布信息时常常需要在文章中嵌入各类文档附件,例如应聘申请表、健康声明书、数据记录表、疫情防控登记表、项目申报评分表及各类公告通知等。本文将详细介绍如何在微信文章中高效地插入不同类型的文档附件,并分享一些实用技巧,帮助用户提升内容发布的专业性和便捷性。 ... [详细]
  • 宏基因组学经典文献重现(一):利用ggplot2进行散点图可视化分析
    宏基因组学经典文献重现(一):利用ggplot2进行散点图可视化分析 ... [详细]
author-avatar
nnamyp_826
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有