当前位置: 开发笔记 > 编程语言 > 正文

attention文字识别算法_OCR算法（上篇）

作者：mobiledu2502861593 | 来源：互联网 | 2023-09-25 04:43

总体上分为两部分，detection和recognition，前者的代表是CTPN等一系列模型，后者则主要为CRNNCTCDetectio

总体上分为两部分&＃xff0c;detection和recognition&＃xff0c;前者的代表是CTPN等一系列模型&＃xff0c;后者则主要为CRNN&＃43;CTC

Detection

CTPN&＃xff08;1609&＃xff09;

https://arxiv.org/pdf/1609.03605.pdfarxiv.org

想法&＃xff1a;

文本不同于一般物体&＃xff0c;是个Sequence&＃xff0c;因而要在CNN后面加上RNN获取上下文信息。

固定宽度&＃xff0c;找到不同高度的文字&＃xff0c;因为文中认为预测文本竖直边界比较容易。

这是Top-down的方法。

网络结构&＃xff1a;

Feature Map是CVGG16的conv5&＃xff0c;每个点提出10个anchor&＃xff0c;长和高分别为

然后过BiDirectionLSTM&＃xff0c;过FC之后得到5k个输出&＃xff08;分别为2k纵坐标修正&＃xff0c;2k预测概率[相加为1]&＃xff0c;1k边界修正[在一些复现里将这里换为2k横坐标修正]&＃xff09;

后处理很繁琐

score阈值设置&＃xff1a;0.7 &＃xff08;&＃43;NMS&＃xff09;
与真值IoU大于0.7的anchor作为正样本&＃xff0c;与真值IoU最大的那个anchor也定义为正样本&＃xff0c;这个时候不考虑IoU大小有没有到0.7&＃xff0c;这样做有助于检测出小文本。
与真值IoU小于0.5的anchor定义为负样本。
只保留score大于0.7的proposal

损失函数为

具体的可见 白裳&＃xff1a;场景文字检测—CTPN原理与实现

EAST&＃xff08;1704&＃xff09;

https://arxiv.org/pdf/1704.03155.pdfarxiv.org

想法&＃xff1a;是一个简单快速的模型&＃xff0c;只有two-stage 其实主要优势只是速度....

模型结构&＃xff1a;

前一部分和FPN一样&＃xff0c;后面根据不同label生成5维&＃xff08;有角度的长方形&＃xff09;或8维&＃xff08;四边形&＃xff09;的文本框

Label的生成&＃xff1a;

对于不同的scale&＃xff0c;生成不同的label&＃xff1b;对于QUAR提出了一种shrink的方式

损失函数&＃xff1a;

&＃xff0c;文中λ设为1

其中score map loss由下式计算

Geometry loss 分为RBOX和QUAD两种情况

RBOX情况下Loss &＃61; -log&＃xff08;IOU&＃xff09;&＃43;λ&＃xff08;1-cos&＃xff08;θ-θ‘&＃xff09;&＃xff09;

QUAD情况下&＃xff0c;N_Q是最短边长度

后处理用来一种改良的NMS&＃xff1a;先通过相近的WeightedMerge再通过标准的NMS

PSENet&＃xff08;1806&＃xff09;

https://arxiv.org/pdf/1806.02559.pdfarxiv.org

想法&＃xff1a;指出两个问题&＃xff1a;1、原始方法只能处理长方形的文字&＃xff1b;2、现有语义分割方法难以区分相临近的文字块

通过语义分割做文本检测&＃xff0c;具体预测多个分割结果&＃xff0c;然后用小的进行Progressive Scale&＃xff08;基于BFS&＃xff09;扩张到正常文本大小。

网络结构&＃xff1a;

左边就是FPN&＃xff0c;右边是PSE。PSE的具体算法如下

即先找到连通域&＃xff0c;然后对连通域进行扩张&＃xff0c;由此区分临近文字。

Label生成&＃xff1a;

对于不同scale生成不同的ground truth&＃xff0c;具体而言就是进行shrink

图中

和

之间的距离

&＃xff0c;

损失函数&＃xff1a;

其中

是text loss&＃xff0c;定义为

&＃xff0c;M为OHEM Mask

是shrink text loss&＃xff0c;定义为

&＃xff0c;

这个距离D用的是DiceDistance

实验结果&＃xff1a;

hypermeter&＃xff1a;lambda&＃61;0.7,OHEM&＃61;3

Augment&＃xff1a;rescale&flip&rotation&crop

FPN的效果

关于n和m的取值

总体而言相比之前有较大提升&＃xff08;-4s 是指output 大小为原图1/4&＃xff09;

Recognition

https://arxiv.org/pdf/1507.05717v1.pdfarxiv.org

任务的输入就是识别出的文字区域&＃xff0c;因此可以认为resize到固定高度之后&＃xff0c;文字大小相差不大

CRNN&＃43;CTC&＃xff08;1507&＃xff09;

CRNN首先把图像resize到32*W*3&＃xff0c;然后通过CNN后变为1*W/4*512&＃xff0c;concat之后经过深层双向LSTM得到结果。

模型结构&＃xff1a;

注意最后一个卷积 padding&＃61;0相当于高度2->1&＃xff0c;Map-to-Seq就是concatenate。

CTC:

CTC是可以认为是一种Loss function。考虑到字之间宽度不定&＃xff0c;所以先构建函数B将预测结果转换为最终输出&＃xff0c;比如

B maps “--hh-e-l-ll-oo--” (’-’ represents ’blank’) onto “hello"。

然后可以计算得分(y为上面的输出&＃xff0c;D*W/4&＃xff0c;D为要识别的字符数量&＃xff09;

CTC运用了backward-forward加速这一计算。

如果是lexicon-based CTC&＃xff0c;考虑BK Tree来获得

SAR &＃xff08;1811&＃xff09;

https://arxiv.org/pdf/1811.00751.pdfarxiv.org

想法&＃xff1a;想要识别irregular文本

已有的方法分为三类&＃xff1a;rectification-based&＃xff0c;难以处理复杂形状&＃xff1b;attention-based&＃xff0c;需要字符级的标注来训练&＃xff1b; multi-direction 需要encode arbitrarily-oriented text in four directions

主要贡献&＃xff1a;1、easy and strong recognization&＃xff1b;2、not rely on sophisticated designs to handle text distortions; 3、保证了regular text的效果

网络结构&＃xff1a;

height 设定为 48 pixel&＃xff0c; width限定48-160 pixel

31层ResNet &＃43; LSTM encoder-decoder &＃43; 2d attention

注意这里有个1*2的max-pooling是为了更好地处理i和l之类的

然后按列max-pooling输入LSTM&＃xff08;大哥&＃xff1a;为什么能work&＃xff1f;&＃xff09;

如上&＃xff0c;encoder是2-layer 512-hidden-state LSTM

如上&＃xff0c;decoder是另一个2-layer 512-hidden-state LSTM&＃xff0c;

LSTM的输入为 one-hot

经过线性变换

LSTM输出之后

output为94个class&＃xff0c;包括10个数字、52个字母和31个标点

训练中input 的y被ground truth代替&＃xff08;能保证1-1对应&＃xff1f;&＃xff09;

上图中的attention是“tailored attention” 具体流程如下

其中

是(i,j)的local feature vector&＃xff0c;

是相邻的八个点

&＃xff08;其实相当于是个卷积&＃xff09;

实验结果&＃xff1a;

使用cross-entropy loss&＃xff0c;(大哥&＃xff1a;这里和CRNN的CTC完全&＃xff09;

使用几个数据集randomly sample构建distinct data groups训练

结果在irregular text方面提升较大

ablation study: Tailored Attention比传统Attention提高了约2个点

&＃xff08;怎么inference&＃xff1f;&＃xff09;

推荐阅读

text
Delphi XE2 之 FireMonkey 入门(19) - TFmxObject 的子类们(表)

td{border:1pxsolid#808080;}参考:和FMX相关的类(表)TFmxObjectIFreeNotification ... [详细]

蜡笔小新 2024-11-21 22:35:24
text
为何Compose与Swarm之后仍有Kubernetes的诞生？

探讨在已有Compose和Swarm的情况下，Kubernetes是如何以其独特的设计理念和技术优势脱颖而出，成为容器编排领域的领航者。 ... [详细]

蜡笔小新 2024-11-22 09:26:11
text
如何在没有提交按钮的情况下提交HTML表单？

探讨了在HTML表单中使用元素代替进行表单提交的方法。 ... [详细]

蜡笔小新 2024-11-22 17:48:42
format
MVC框架下使用DataGrid实现时间筛选与枚举填充

本文介绍如何在ASP.NET MVC项目中利用DataGrid组件增强搜索功能，具体包括使用jQuery UI的DatePicker插件添加时间筛选条件，并通过枚举数据填充下拉列表。 ... [详细]

蜡笔小新 2024-11-27 11:02:33
text
深入解析Android中的SQLite数据库

SQLite是一种轻量级的关系型数据库管理系统，尽管体积小巧，却能支持高达2TB的数据库容量，每个数据库以单个文件形式存储。本文将详细介绍SQLite在Android开发中的应用，包括其数据存储机制、事务处理方式及数据类型的动态特性。 ... [详细]

蜡笔小新 2024-11-26 21:57:20
text
BeautifulSoup4：Python的HTML/XML解析利器

BeautifulSoup4 是一个功能强大的HTML和XML解析库，它能够帮助开发者轻松地从网页中提取信息。本文将介绍BeautifulSoup4的基本功能、安装方法、与其他解析工具的对比以及简单的使用示例。 ... [详细]

蜡笔小新 2024-11-26 14:44:14
select
探索Hive UDF的应用

本文介绍了在解决Hive表中复杂数据结构平铺化问题后，如何通过创建视图来准确计算广告日志的曝光PV，特别是针对用户对应多个标签的情况。同时，详细探讨了UDF的使用方法及其在实际项目中的应用。 ... [详细]

蜡笔小新 2024-11-26 11:08:12
controller
Kubernetes Services详解

本文深入探讨了Kubernetes中的服务（Services）概念，解释了如何通过Services实现Pods之间的稳定通信，以及如何管理没有选择器的服务。 ... [详细]

蜡笔小新 2024-11-24 18:37:01
text
为何引入jQuery UI自动完成功能后，我的列表框也受到影响？

我在尝试将组合框转换为具有自动完成功能时遇到了一个问题，即页面上的列表框也被转换成了自动完成下拉框，而不是保持原有的多选列表框形式。 ... [详细]

蜡笔小新 2024-11-24 12:02:48
format
iOS如何实现手势

这篇文章主要为大家展示了“iOS如何实现手势”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“iOS ... [详细]

蜡笔小新 2024-11-23 20:37:40
text
使用 Pyglet 加载和显示图像

本文介绍了如何使用 Python 的 Pyglet 库加载并显示图像。Pyglet 是一个用于开发图形用户界面应用的强大工具，特别适用于游戏和多媒体项目。 ... [详细]

蜡笔小新 2024-11-23 15:23:32
range
Python算法实践：多维缩放技术的应用

本文介绍了多维缩放（MDS）技术，这是一种将高维数据映射到低维空间的方法，通过保持原始数据间的关系，以便于可视化和分析。文章详细描述了MDS的原理和实现过程，并提供了Python代码示例。 ... [详细]

蜡笔小新 2024-11-21 20:04:27
join
Python全栈之旅：SQLAlchemy ORM中的外键与关系

本文探讨了SQLAlchemy ORM框架中如何利用外键和关系（relationship）来建立表间联系，简化复杂的查询操作。通过示例代码详细解释了relationship的定义、使用方法及其与外键的相互作用。 ... [详细]

蜡笔小新 2024-11-27 11:20:01
triggers
解决Ant Design SubMenu 渲染时出现的 TypeError

在使用 Ant Design 的 SubMenu 组件时，遇到无法读取 'isRootMenu' 属性的 TypeError。本文将探讨该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-11-26 17:23:20
text
FTX 闪崩，4 小时暴跌 80%，熊市的最后一跌？区块链已死？

FTX 闪崩，4 小时暴跌 80%，熊市的最后一跌？区块链已死？ ... [详细]

蜡笔小新 2024-11-26 17:21:32

mobiledu2502861593

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章