作者:与天使有染的救赎_164 | 来源:互联网 | 2023-05-18 05:08
本文主要介绍关于人工智能,python,编程语言,java,机器学习的知识点,对【GitHub大热!也许会成为你心中的OCR开源工具NO1!】和【ocr开源解决方案】有兴趣的朋友可以看下由【程序猿D
本文主要介绍关于人工智能,python,编程语言,java,机器学习的知识点,对【GitHub 大热!也许会成为你心中的OCR开源工具NO1!】和【ocr开源解决方案】有兴趣的朋友可以看下由【程序猿DD_】投稿的技术文章,希望该技术和经验能帮到你解决你所遇的相关技术问题。
ocr开源解决方案
前几天,小编的一个朋友跟小编吐槽, 说起最近国内一些银行科技内部在用的比较流行的几种高科技技术,其中OCR一定是逃不过去的, 但凡哪家银行想做数字化转型,从行长到老总肯定第一句就说要做OCR,但到底什么是OCR,能做什么,可能说出的人并不知道,只是知道这个名字说出来就代表着智能项目。
OCR,全称optical character recognition,意思是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
但凡是对国内OCR方面有所了解的工程师,一定或多或说听说过 PaddleOCR 这个项目。其主要推荐的 PP-OCR 算法更是被国内外企业OCR开发者广泛应用。
尤其在GitHub上短短时间内已经积攒了15k+的星,频频登上了各种榜单前列。
小编来给大家粗略的算一下:
2020年6月,发布OCR超轻量模型,登上GitHub Trending全球趋势榜日榜第一的宝座。
同年8月,开源CVPR2020算法,再次登上GitHub趋势榜单。
2个月后,PP-OCR算法发布,登上Paperswithcode趋势榜第一名。
2021年1月,Style-Text文本合成算法发布,同时上线PPOCRLabel数据标注工具,被某主流报告评为中国GitHub Top20活跃项目。
同年4月,开源了PGNet端到端识别算法。
同年8月,开源了PP-Structure工具包,支持版面分析与表格识别。
同一月,GitHub上Star突破15k+,截止发文时点,已经16K+!
然后就在这个月,PaddleOCR的项目团队宣布,根据之前项目中碰到的问题以及解决经验,经过整组团队人员的共同努力,构建并发布新一代的OCR系统PP-OCRv2。
PP-OCRv2CPU推理速度相比于PP-OCR server提升220%;效果相比于PP-OCR mobile 提升7%
简单的说,就是更高更快更强!
同时在功能加强的基础上,大小仅13M(检测(3.1M)+ 方向分类器(1.4M)+ 识别(8.5M)= 13.0M),可以轻松部署服务器端和移动端。
光说不练假把式,说了那么多我们先来一起看下PP-OCRv2的实际识别效果究竟如何:
看着的确不错,别急,还有各种其他不同的场景,例如:
中文识别模型
英文识别模型
多语言识别模型
光看效果是不错,但是如果程序猿小伙伴遇到问题不会用怎么办?
项目组考虑到这点,特地为众多好学的程序猿小伙伴准备了丰富详尽的教程文档。
从项目环境的准备,到项目的运行,快速开始,各种模型的设计训练,各种实际的部署以及常见的问题,光看看这个教程,就感觉受益匪浅了~
总的来说, PP-OCRv2是在PP-OCR的基础上,在5个方面重点优化:
检测模型采用CML协同互学习知识蒸馏策略
CopyPaste数据增广策略
识别模型采用LCNet轻量级骨干网络
UDML 改进知识蒸馏策略
Enhanced CTC loss损失函数改进
(如下图红框所示)进一步在推理速度和预测效果上取得明显提升。
对于上述更新内容有兴趣想深度钻研的小伙伴,这里还有一份长达8页的文档,可供研究学习(下载地址同项目地址一并关注公众号回复关键字后提供)
从下面项目的更新记录我们也可以看到,就在前几天,项目组还就新技术的发布做了直播,可谓用心良苦。
如此优秀的项目,怎能不让人心动呢!想加入体验OCR效果的小伙伴,别的不多说了,赶紧来关注获取项目地址及技术文档吧!
点击下方卡片,关注公众号“TJ君”
回复“OCR”,获取仓库地址
本文《GitHub 大热!也许会成为你心中的OCR开源工具NO1!》版权归程序猿DD_所有,引用GitHub 大热!也许会成为你心中的OCR开源工具NO1!需遵循CC 4.0 BY-SA版权协议。