热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

GitHub大热!也许会成为你心中的OCR开源工具NO1!

本文主要介绍关于人工智能,python,编程语言,java,机器学习的知识点,对【GitHub大热!也许会成为你心中的OCR开源工具NO1!】和【ocr开源解决方案】有兴趣的朋友可以看下由【程序猿D

本文主要介绍关于人工智能,python,编程语言,java,机器学习的知识点,对【GitHub 大热!也许会成为你心中的OCR开源工具NO1!】和【ocr开源解决方案】有兴趣的朋友可以看下由【程序猿DD_】投稿的技术文章,希望该技术和经验能帮到你解决你所遇的相关技术问题。

ocr开源解决方案

前几天,小编的一个朋友跟小编吐槽, 说起最近国内一些银行科技内部在用的比较流行的几种高科技技术,其中OCR一定是逃不过去的, 但凡哪家银行想做数字化转型,从行长到老总肯定第一句就说要做OCR,但到底什么是OCR,能做什么,可能说出的人并不知道,只是知道这个名字说出来就代表着智能项目。

OCR,全称optical character recognition,意思是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

但凡是对国内OCR方面有所了解的工程师,一定或多或说听说过 PaddleOCR 这个项目。其主要推荐的 PP-OCR 算法更是被国内外企业OCR开发者广泛应用。

尤其在GitHub上短短时间内已经积攒了15k+的星,频频登上了各种榜单前列。

小编来给大家粗略的算一下:

2020年6月,发布OCR超轻量模型,登上GitHub Trending全球趋势榜日榜第一的宝座。

同年8月,开源CVPR2020算法,再次登上GitHub趋势榜单。

2个月后,PP-OCR算法发布,登上Paperswithcode趋势榜第一名。

2021年1月,Style-Text文本合成算法发布,同时上线PPOCRLabel数据标注工具,被某主流报告评为中国GitHub Top20活跃项目。

同年4月,开源了PGNet端到端识别算法。

同年8月,开源了PP-Structure工具包,支持版面分析与表格识别。

同一月,GitHub上Star突破15k+,截止发文时点,已经16K+!

然后就在这个月,PaddleOCR的项目团队宣布,根据之前项目中碰到的问题以及解决经验,经过整组团队人员的共同努力,构建并发布新一代的OCR系统PP-OCRv2

PP-OCRv2CPU推理速度相比于PP-OCR server提升220%;效果相比于PP-OCR mobile 提升7%

简单的说,就是更高更快更强

同时在功能加强的基础上,大小仅13M(检测(3.1M)+ 方向分类器(1.4M)+ 识别(8.5M)= 13.0M),可以轻松部署服务器端和移动端。

光说不练假把式,说了那么多我们先来一起看下PP-OCRv2的实际识别效果究竟如何:

看着的确不错,别急,还有各种其他不同的场景,例如:

中文识别模型

英文识别模型

多语言识别模型

光看效果是不错,但是如果程序猿小伙伴遇到问题不会用怎么办?

项目组考虑到这点,特地为众多好学的程序猿小伙伴准备了丰富详尽的教程文档。

从项目环境的准备,到项目的运行,快速开始,各种模型的设计训练,各种实际的部署以及常见的问题,光看看这个教程,就感觉受益匪浅了~

总的来说, PP-OCRv2是在PP-OCR的基础上,在5个方面重点优化:

检测模型采用CML协同互学习知识蒸馏策略

CopyPaste数据增广策略

识别模型采用LCNet轻量级骨干网络

UDML 改进知识蒸馏策略

Enhanced CTC loss损失函数改进

(如下图红框所示)进一步在推理速度和预测效果上取得明显提升。

对于上述更新内容有兴趣想深度钻研的小伙伴,这里还有一份长达8页的文档,可供研究学习(下载地址同项目地址一并关注公众号回复关键字后提供)

从下面项目的更新记录我们也可以看到,就在前几天,项目组还就新技术的发布做了直播,可谓用心良苦。

如此优秀的项目,怎能不让人心动呢!想加入体验OCR效果的小伙伴,别的不多说了,赶紧来关注获取项目地址及技术文档吧!

点击下方卡片,关注公众号“TJ君

回复“OCR”,获取仓库地址

本文《GitHub 大热!也许会成为你心中的OCR开源工具NO1!》版权归程序猿DD_所有,引用GitHub 大热!也许会成为你心中的OCR开源工具NO1!需遵循CC 4.0 BY-SA版权协议。


推荐阅读
  • 本文深入探讨了 MXOTDLL.dll 在 C# 环境中的应用与优化策略。针对近期公司从某生物技术供应商采购的指纹识别设备,该设备提供的 DLL 文件是用 C 语言编写的。为了更好地集成到现有的 C# 系统中,我们对原生的 C 语言 DLL 进行了封装,并利用 C# 的互操作性功能实现了高效调用。此外,文章还详细分析了在实际应用中可能遇到的性能瓶颈,并提出了一系列优化措施,以确保系统的稳定性和高效运行。 ... [详细]
  • 进程(Process)是指计算机中程序对特定数据集的一次运行活动,是系统资源分配与调度的核心单元,构成了操作系统架构的基础。在早期以进程为中心的计算机体系结构中,进程被视为程序的执行实例,其状态和控制信息通过任务描述符(task_struct)进行管理和维护。本文将深入探讨进程的概念及其关键数据结构task_struct,解析其在操作系统中的作用和实现机制。 ... [详细]
  • Java中高级工程师面试必备:JVM核心知识点全面解析
    对于软件开发人员而言,随着技术框架的不断演进和成熟,许多高级功能已经被高度封装,使得初级开发者只需掌握基本用法即可迅速完成项目。然而,对于中高级工程师而言,深入了解Java虚拟机(JVM)的核心知识点是必不可少的。这不仅有助于优化性能和解决复杂问题,还能在面试中脱颖而出。本文将全面解析JVM的关键概念和技术细节,帮助读者全面提升技术水平。 ... [详细]
  • 本文深入探讨了 HTML 中的 `margin` 属性,详细解析了其基本特性和应用场景。文章不仅介绍了 `margin` 的基本概念,还重点讨论了垂直外边距合并现象,并分析了 `margin` 在块级元素与内联元素中的不同表现。通过实例和代码示例,帮助读者全面理解 `margin` 的使用技巧和常见问题。 ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
  • 使用PyQt5与OpenCV实现电脑摄像头的图像捕捉功能
    本文介绍了如何使用Python中的PyQt5和OpenCV库来实现电脑摄像头的图像捕捉功能。通过结合这两个强大的工具,用户可以轻松地打开摄像头并进行实时图像采集和处理。代码示例展示了如何初始化摄像头、捕获图像并将其显示在PyQt5的图形界面中。此外,还提供了详细的步骤说明和代码注释,帮助开发者快速上手并实现相关功能。 ... [详细]
  • 理工科男女不容错过的神奇资源网站
    十一长假即将结束,你的假期学习计划进展如何?无论你是在家中、思念家乡,还是身处异国他乡,理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档,能够帮助你在假期中高效学习和提升专业技能。 ... [详细]
  • Android目录遍历工具 | AppCrawler自动化测试进阶(第二部分):个性化配置详解
    终于迎来了“足不出户也能为社会贡献力量”的时刻,但有追求的测试工程师绝不会让自己的生活变得乏味。与其在家消磨时光,不如利用这段时间深入研究和提升自己的技术能力,特别是对AppCrawler自动化测试工具的个性化配置进行详细探索。这不仅能够提高测试效率,还能为项目带来更多的价值。 ... [详细]
  • 在单个图表中实现饼图与条形图的精准对齐 ... [详细]
  • 如何在Android应用中设计和实现专业的启动欢迎界面(Splash Screen)
    在Android应用开发中,设计与实现一个专业的启动欢迎界面(Splash Screen)至关重要。尽管Android设计指南对使用Splash Screen的态度存在争议,但一个精心设计的启动界面不仅能提升用户体验,还能增强品牌识别度。本文将探讨如何在遵循最佳实践的同时,通过技术手段实现既美观又高效的启动欢迎界面,包括加载动画、过渡效果以及性能优化等方面。 ... [详细]
  • 本文探讨了将PEBuilder转换为DIBooter.sh的方法,重点介绍了如何将DI工具集成到启动层,实现离线镜像引导安装。通过使用DD命令替代传统的grub-install工具,实现了GRUB的离线安装。此外,还详细解析了bootice工具的工作原理及其在该过程中的应用,确保系统在无网络环境下也能顺利引导和安装。 ... [详细]
  • 本文深入探讨了 C# 中 `SqlCommand` 和 `SqlDataAdapter` 的核心差异及其应用场景。`SqlCommand` 主要用于执行单一的 SQL 命令,并通过 `DataReader` 获取结果,具有较高的执行效率,但灵活性较低。相比之下,`SqlDataAdapter` 则适用于复杂的数据操作,通过 `DataSet` 提供了更多的数据处理功能,如数据填充、更新和批量操作,更适合需要频繁数据交互的场景。 ... [详细]
  • 使用React与Ant Design 3.x构建IP地址输入组件
    本文深入探讨了利用React框架结合Ant Design 3.x版本开发IP地址输入组件的方法。通过详细的代码示例,展示了如何高效地创建具备良好用户体验的IP输入框,对于前端开发者而言具有较高的实践指导意义。 ... [详细]
  • 如何在datetimebox中进行赋值与取值操作
    在 datetimebox 中进行赋值和取值操作时,可以通过以下方法实现:使用 `$('#j_dateStart').datebox('setValue', '指定日期')` 进行赋值,而通过 `$('#j_dateStart').datebox('getValue')` 获取当前选中的日期值。若需要清空日期值,可以使用 `$('#j_dateStart').datebox('clear')` 方法。这些操作能够确保日期控件的准确性和灵活性,适用于各种前端应用场景。 ... [详细]
  • HTML5 Web存储技术是许多开发者青睐本地应用程序的重要原因之一,因为它能够实现在客户端本地存储数据。HTML5通过引入Web Storage API,使得Web应用程序能够在浏览器中高效地存储数据,从而提升了应用的性能和用户体验。相较于传统的Cookie机制,Web Storage不仅提供了更大的存储容量,还简化了数据管理和访问的方式。本文将从基础概念、关键技术到实际应用,全面解析HTML5 Web存储技术,帮助读者深入了解其工作原理和应用场景。 ... [详细]
author-avatar
与天使有染的救赎_164
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有