热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

文档档案数字化中的OCR核心技术

信息时代,档案数字化已成为档案工作的重中之重,纸质文档档案扫描工作在各地如火如荼地进行。然而,扫描所产生的电子档案实际上只是以图像形式存在

信息时代,档案数字化已成为档案工作的重中之重,纸质文档档案扫描工作在各地如火如荼地进行。然而,扫描所产生的电子档案实际上只是以图像形式存在的文件,而非真正意义上的文本文件。也就是说,计算机只认识档案的外表,却不认识其内在文字。用户通过计算机只能看到档案的原貌,却不能对其中的内容进行引用、检索等操作,这无疑对将来的电子档案利用工作造成了很大的不便。考虑到档案用户的利用需求,若要得到真正文本形态的电子档案,使档案数字化工作更加有效、更加彻底,便要应用到OCR技术。
OCR技术的优势及其在档案数字化过程中的应用
OCR技术相对于传统的手工录入方式来说,具有强大的优势。首先,OCR文字识别的速度远快于手工录入。根据国际通行的打字速度评级标准,即使是专业人员,每分钟也仅能输入150~240个字。而采用OCR技术,即使算上前后期的处理环节所花时间,其速度也绝对比前者快好多倍。其次,OCR文字识别的质量远高于手工录入。虽然由于各种因素影响,OCR技术的识别率很难达到100%,但比起大批量手工录入,其出错率要小得多。最后,OCR还节省了大量人力资源,优化了资源配置,使人员分配于更加有意义的工作。对于档案数字化工作来说,厦门云脉的依托OCR技术开发的文档档案管理系统除了具有以上几个普遍的优势之外,还有以下独特核心功能:
1、AI文字识别及栏目识别技术:识别率领先、速度快。
2、AI智慧检索:任意关键字全文模糊检索、匹配结果图像高亮标识。搜索精度高、秒出。
3、AI图像处理技术:自动切边、倾斜校正、图像增强美化、压缩、导出。
4、AI智慧纠错:自动标注可能错字,相似字及前后联想字用以快速纠错。

云脉文档档案管理系统将纸质档案数字化并采用OCR识别,能够使档案信息资源实现全文检索、网络传输、方便用户异地检索、复制引用。从而深化用户对档案内容的查询与利用,拓宽其利用面。使档案也能像图书、新闻一样成为人们日常生活中获取信息、利用信息、增加学识的手段使档案多方面地服务于公众。


推荐阅读
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 本文介绍了新款奇骏的两个让人上瘾的功能,分别是智能互联系统和BOSE音响。通过对新款奇骏的配置和功能进行评测,探讨了这两个新增功能的使用体验和优势。此外,还介绍了新款奇骏的其他配置和改进,如增加的座椅和驾驶辅助系统,以及内饰的舒适性提升。对于喜欢音响的消费者来说,BOSE音响的升级也是一个亮点。最后,文章提到了BOSE音响的数字还原能力,以及7座版无法配备BOSE音响的原因。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 无损压缩算法专题——LZSS算法实现
    本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程,以及代码中的注释。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 本文介绍了在Windows环境下如何配置php+apache环境,包括下载php7和apache2.4、安装vc2015运行时环境、启动php7和apache2.4等步骤。希望对需要搭建php7环境的读者有一定的参考价值。摘要长度为169字。 ... [详细]
  • Ubuntu安装常用软件详细步骤
    目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • 图片文字转换成word软件好用吗?
      图片文字都需要进行转换才能进行二次利用,因为这些文字都是不能编辑和复制的“死文字”word图片导出。进行转换的话就需要借助软件帮忙,图片文字转换成word软 ... [详细]
  • 装饰模式(Deocrator)     动态地给一个对象添加一些额外的职责,就增加功能来说,装饰模式比生成子类更为灵活。    所谓装饰,就是一些对象给主题 ... [详细]
  • windows 下git出现警告:warning: LF will be replaced by CRLF in test1.txt. The file will have its original
    windows下git出现警告:warning:LFwillbereplacedbyCRLFintest1.txt.Thefilewillhaveitsorigina ... [详细]
author-avatar
wuqing0625
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有