当前位置: 开发笔记 > 编程语言 > 正文

【OCR学习笔记】WhatIsWrongWithSceneTextRecognitionModelComparisonsDatasetandModelAnalysis

作者：happy玛奇朵_387 | 来源：互联网 | 2023-10-15 18:16

文章目录摘要细节开源代码摘要提出了一个统一的四阶段STR框架。Transformation：TPS，归一化字符区域到预定义的矩形，校正图像。Featureextraction

文章目录

摘要
细节
开源代码

摘要

提出了一个统一的四阶段STR框架。

Transformation： TPS，归一化字符区域到预定义的矩形，校正图像。

Feature extraction : ResNet、GRCNN、MobileNet、VGG，提取与字符识别相关的特征。

Sequence modeling（Context modeling）： BiLSTM或BiGRU，捕获字符序列的上下文信息，使字符预测更稳健，而不是单独预测。

Prediction： CTC、Attention，从图像的可识别特征预测字符序列。CTC可以预测不固定数量的序列即使给定固定数量的特征。CTC的关键是在每列（$h_i 属于 H $）预测一个字符，并且通过删除重复字符和空白将全部字符序列修改到一个不固定的字符序列。Attn自动捕获输入序列中的信息流，预测输出序列。

细节

训练样本的多样性比训练样本的数量重要

ResNet、BiLSTM、TPS的加入，使得耗时从1.3ms增加到10.9ms，然而极大提升了准确率（从69.5%到82.9%）。Attn值提升了1.1%的准确率，代价是效率降低（27.6ms）

当用于fine-tune的真实数据与测试数据的分布相近时，fine-tune是有效的；否则，就是对准确率有害的。

在这里插入图片描述

开源代码

这篇文章提出的框架对OCR领域有较大影响。百度开源的PaddleOCR就是根据它的框架来实现的。
相关链接：
（1）论文的官方开源代码deep-text-recognition-benchmark：https://github.com/clovaai/deep-text-recognition-benchmark
（2）百度的PaddleOCR：https://github.com/PaddlePaddle/PaddleOCR
（3）WenmuZhou大佬的PytorchOCR：https://github.com/WenmuZhou/PytorchOCR

推荐阅读

eval
Mathematica 12.3.1 中英文版正式发布，附新功能介绍

历经三十年的开发，Mathematica 已成为技术计算领域的标杆，为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]

蜡笔小新 2024-12-22 09:34:59
int
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
int
ChatGPT：内容创造者还是非法搬运工？

探讨ChatGPT在法律和版权方面的潜在风险及影响，分析其作为内容创造工具的合法性和合规性。 ... [详细]

蜡笔小新 2024-12-21 10:13:36
int
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
int
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
get
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
数组
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
controller
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
int
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
get
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
import
Android LED 数字字体的应用与实现

本文介绍了一种适用于 Android 应用的 LED 数字字体（digital font），并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景，能够增强视觉效果。 ... [详细]

蜡笔小新 2024-12-27 10:34:22
int
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
int
Unity编辑器插件：NGUI资源引用检测工具

本文介绍了一款基于NGUI的资源引用检测工具，该工具能够帮助开发者快速查找和管理项目中的资源引用。其功能涵盖Atlas/Sprite、字库、UITexture及组件的引用检测，并提供了替换和修复功能。文末提供源码下载链接。 ... [详细]

蜡笔小新 2024-12-24 17:17:06
int
F# Interactive 中的数据格式化技巧：使用 AddPrinter 和 AddPrintTransformer 自定义输出

本文探讨了如何在 F# Interactive (FSI) 中通过 AddPrinter 和 AddPrintTransformer 方法自定义类型（尤其是集合类型）的输出格式，提供了详细的指南和示例代码。 ... [详细]

蜡笔小新 2024-12-22 12:09:23
int
C# XNA 中实现自定义 3x3 矩阵类：MMatrix33

本文介绍了如何在 C# 和 XNA 框架中实现一个自定义的 3x3 矩阵类（MMatrix33），旨在深入理解矩阵运算及其应用场景。该类参考了 AS3 Starling 和其他相关资源，以确保算法的准确性和高效性。 ... [详细]

蜡笔小新 2024-12-21 17:27:57

happy玛奇朵_387

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章