TextScanner：旷视新作文字识别新突破，确保字符阅读顺序

作者： | 来源：互联网 | 2023-07-07 16:56

点击我爱计算机视觉标星，更快获取CVML新技术由于深度学习和海量数据的涌现，场景文字识别技术获得飞速发展。但是先前同类方法存在种种缺点，为

点击我爱计算机视觉标星&＃xff0c;更快获取CVML新技术

由于深度学习和海量数据的涌现&＃xff0c;场景文字识别技术获得飞速发展。但是先前同类方法存在种种缺点&＃xff0c;为此&＃xff0c;本文提出 TextScanner&＃xff0c;一种鲁棒的基于分割的场景文字识别方法&＃xff0c;可以正确读取字符数据&＃xff0c;并在一系列相关的文字基准数据集上&＃xff0c;取得了当前最佳的性能。本文是旷视研究院与华中科技大学的联合研究成果&＃xff0c;已收录于 AAAI 2020。

论文名称&＃xff1a;TextScanner: Reading Characters in Order for Robust Scene Text Recognition

论文链接&＃xff1a;http://arxiv.org/abs/1912.12422

导语

过去数十年&＃xff0c;作为计算机视觉子领域的场景文字检测与识别研究相当引人注目&＃xff0c;这多半是因为其广泛的应用&＃xff0c;诸如自动驾驶&＃xff0c;视觉辅助&＃xff0c;以及人机交互。由于场景文字承载着关键而具体的信息&＃xff0c;精确到文字识别在复杂的现实场景中异常重要。在当前最优的场景文字识别方法中&＃xff0c;有着两个流行的范式&＃xff1a;1&＃xff09;基于 RNN 注意力的方法&＃xff0c;2&＃xff09;基于语义分割的算法。

前者的灵感来自神经机器翻译&＃xff0c;把图像编码为特征&＃xff0c;并通过注意力机制对齐和解码字符&＃xff1b;后者试图从 2D 的视角解决文字识别问题&＃xff0c;它首先采用一个全连接卷积网络进行语义分割&＃xff0c;接着在分割图中寻找相连的组件&＃xff0c;最后为每个相连的组件分类&＃xff08;每个被看作一个字符&＃xff09;。

本质而言&＃xff0c;要正确识别文字图像上的内容&＃xff0c;就要精确预测字符的数量、顺序以及每个字符的类别。通常情况下&＃xff0c;基于 RNN 注意力机制的方法工作良好。但是&＃xff0c;当背景中有噪音&＃xff0c;或者出现不规则的文字形状&＃xff0c;注意力机制就会遇挫&＃xff0c;即已评估的注意力图的中心指向一个错误的位置&＃xff0c;造成错误的字符顺序和类别&＃xff0c;如图 1 所示。

图 1&＃xff1a;本文的研究动机

更有甚者&＃xff0c;由于 RNN 的循环记忆机制&＃xff0c;这样的错误会累加和传播&＃xff0c;使情况更严重。基于语义分割的算法探索了一条不同的道路&＃xff0c;并对不同形状的文字&＃xff08;水平、有向、弯曲&＃xff09;更具有适应性。

但是&＃xff0c;从分割图成功分离每个字符很困难&＃xff0c;这是由于不恰当的二值化造成了一些窘境&＃xff1a;一个字符被分离为多个部分&＃xff0c;或者多个字符粘在一块&＃xff08;见图 1&＃xff09;。在这些情况下&＃xff0c;字符数量和种类的预测将是错的。

总之&＃xff0c;现有方法&＃xff0c;无论是基于 RNN 注意力还是语义分割&＃xff0c;皆不能很好地克服场景文字识别的困难。

简介

基于 RNN 的方法存在着注意力飘移的问题&＃xff0c;究其根本是由于对齐操作依赖于视觉特征和先前的解码结果。两类信息之间可能发生互扰。因此&＃xff0c;有必要在独立的分支上执行字符对齐和分类。

在基于语义分割的算法方面&＃xff0c;可通过简单的二值化查找字符这一假设&＃xff0c;在一些有挑战性的场景上并不成立。为此&＃xff0c;一个自然可行的方案是通过不同的通道表示字符的位置和顺序。

本文中&＃xff0c;旷视研究院提出一个全新的文字识别框架&＃xff0c;称之为 TextScanner。正如一台真实的扫描器&＃xff08;scanner&＃xff09;&＃xff0c;TextScanner 可以正确的顺序读取字符。

如图 2 所示&＃xff0c;TextScanner 构建在语义分割之上&＃xff0c;它包含两个分支&＃xff1a;1&＃xff09;类别分支&＃xff0c;用于字符分类&＃xff0c;2&＃xff09;几何分支&＃xff0c;预测字符的位置和顺序。

图 2&＃xff1a;本文方法框架示意图

类别分支生产多通道分割图&＃xff0c;其中每个位置的值表示字符类别&＃xff08;包括背景类别&＃xff09;的概率。几何分支也生产多通道的分割图&＃xff0c;但是每个位置的值的意义与类别分支中的不同。

由于字符对齐良好&＃xff0c;且顺序确定&＃xff0c;TextScanner 可以避免基于 RNN 方法中的注意力飘逸现象&＃xff1b;同时&＃xff0c;在几何分支中&＃xff0c;不同的字符被严格分配至不同的通道&＃xff0c;因此可被轻松提取。

正如 FAN 和 CA-FCN&＃xff0c;TextScanner 也需要字符级别的标注用于训练&＃xff0c;这是因为几何分支把字符中心作为监督信号。

但是&＃xff0c;实际上有大量的真实图像没有字符层面的标注&＃xff0c;从而非常有益于训练文字识别器。为充分利用这些真实数据&＃xff0c;本文提出一个互监督机制。

对于没有字符标注的图像实例&＃xff0c;只通过序列层面的标注信息&＃xff0c;便可实现两个分支的预测的互监督。结果&＃xff0c;TextScanner 可以充分利用全部现有的训练信息&＃xff0c;包括合成的和真实的文字图像在内。

方法

概述

本文方法的整体架构如图 2 所示&＃xff0c;这一网络的解码器由两个分支组成&＃xff1a;1&＃xff09;类别分支&＃xff1b;2&＃xff09;几何分支。

类别分支

TextScanner 的类别分支产生字符分割图&＃xff0c;它直接来自由 CNN backbone 提取的可见特征&＃xff1b;分支的预测模块由两个堆叠的卷积层组成&＃xff0c;核大小分别是 3x3 和 1x1。分支通过在类别维度上应用 Softmax 归一化以生产字符分割图。

几何分支

首先&＃xff0c;借助 Sigmoid 激活函数&＃xff0c;从和类别分支相同的可见特征生成一个字符定位图。同时&＃xff0c;采用一个自上而下的金字塔结构生成顺序分割图。

尤其&＃xff0c;下采样路径顶层的特征图被 RNN 模块编码以建模上下文。遵从上采样路径&＃xff0c;通过两个卷积层生成顺序分割图&＃xff0c;它同样也被 Softmax 归一化。

接着&＃xff0c;一个顺序图可通过逐元素相乘被顺序分割图的第 k 个通道和字符定位图计算。几何分支细节如图 3 所示。

图 3&＃xff1a;几何分支图示

预训练&＃xff08;通过字符标注&＃xff09;

当在合成数据上预训练时&＃xff0c;TextScanner 可使用字符标注实现优化。

标签生成

由于弯曲或者密集文字中的正方形并不精确&＃xff0c;本文保留了字符区域多边形的定义。为避免由相邻字符的边所造成的重叠&＃xff0c;多边形字符的边界框借助 Vatti 裁剪算法被收缩至一个区域&＃xff0c;其中相应字符的类别被渲染为字符分割的 groud truth。

为生成带有字符标注的顺序图的 groud truth&＃xff0c;高斯图的中心首先被检测&＃xff0c;通过计算字符边界框的中心点。

图 4&＃xff1a;预训练的 groudtruth 生成

如图 4 所示&＃xff0c;为每个字符生成 2D 高斯图和中心点期望值&＃xff0c;接着字符的顺序按照 2D 高斯图区域内的像素做渲染&＃xff0c;最后&＃xff0c;每个字符的顺序图 groundtruth 被归一化为 [0, 1] 。

损失函数

整个损失函数是上述三个任务所有损失的加权总和&＃xff1a;

定位损失图被计算为一个平均平滑的 L1 损失。顺序分割和字符分割的损失被计算为预测分值和相应 ground truth 之间的交叉熵。在交叉熵计算中&＃xff0c;两个分割任务重的背景类别被忽略。

互监督机制

为减少对字符标注的依赖&＃xff0c;本文提出互监督机制&＃xff0c;它是基于 TextScanner 的双分支结构。如图 2 所示&＃xff0c;可通过结合字符分割图 G 和顺序图 H 生成文字的顺序。给定一个字符标签和两个结果中的一个&＃xff0c;可以生成另一个结果的监督信号。

给定文字顺序标签 T&＃xff0c;从它的第一个字符到最后一个执行互监督。在 T 中的第 k 个字符&＃xff0c;它的顺序是 k&＃xff0c;类别是 T(k)&＃xff1a;

而互监督的形式如下所示&＃xff1a;

互监督过程的第一步如图 5&＃xff08;a&＃xff09;所示&＃xff1a;

图 5

过程执行到 T 的最后一个字符。请注意&＃xff0c;在一个选择中选择了 Gˆ 的多个区域&＃xff0c;因为字符在 T 中出现多次&＃xff0c;因此不能用于 H 的监督&＃xff0c;如图 5&＃xff08;b&＃xff09;所示。因此从交叉监督过程中去掉这些实例。

G 和 H 的置信度标示为&＃xff1a;

实验

本文在基准数据集上进行了一系列实验&＃xff0c;以评估 TextScanner 的性能&＃xff0c;并与其他方法做了对比&＃xff0c;具体实验结果请见表 1&＃xff1a;

表 1&＃xff1a;本文方法与其他方法性能对比

标准数据集

表 1 给出了不同方法在标准基准上的识别精度&＃xff0c;其中既有常规文字数据集如 IIIT&＃xff0c;SVT&＃xff0c;IC13&＃xff0c;也非常规数据集如 IC15&＃xff0c;SVTP&＃xff0c;CT。

TextScanner 的自然建模使其在棘手实例上更鲁棒&＃xff0c;比如文字是弯曲的或有向的。如表 1 所示&＃xff0c;TextScanner 的三个变体在相同数据集上超越全部先前方法。

尤其是在弯曲文字方面&＃xff0c;使用合成数据训练的 TextScanner&＃43;90k&＃xff0c;在数据集 IC15&＃xff0c;SVTP&＃xff0c;CT 上&＃xff0c;分别取得了 3.3% &＃xff0c;4.1% &＃xff0c;4.0% 的提升。

中文数据集

为进一步验证 TextScanner 的汉字识别性能&＃xff0c; 本文与两个较有代表性的汉字识别方法 CRNN 和 ASTER 做了性能对比&＃xff0c;量化结果如表 2 所示&＃xff1a;

表 2&＃xff1a;MLT-17上的结果对比

字符定位精度

对于两个注意力解码器和 TextScanner 而言&＃xff0c;注意力位置或者字符定位的精确预测对识别非常关键&＃xff0c;由于两者都生成字符中心点&＃xff0c;本文在数据集 IC13 上对比了字符定位性能&＃xff0c;方法是测量宽度轴上已生成的字符中心点和 groundtruth 中心点之间的归一化距离&＃xff0c;其概率密度如图 7 所示&＃xff1a;

图 7&＃xff1a;字符定位偏差的概率密度

结论

旷视研究院在本文中提出 TextScanner&＃xff0c;一个高效的基于分割的双分支的场景文字识别框架&＃xff0c;它克服了先前方法的困难和缺点&＃xff0c;并不不同的具有挑战性的场景下表现良好。

其中&＃xff0c;一个全新的互监督机制的提出&＃xff0c;使得充分利用真实和合成数据成为可能。另外&＃xff0c;TextScanner 还在处理困难文字方面表现出较强的适应性。

参考文献

Bahdanau, D.; Cho, K.; and Bengio, Y. 2014. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
Cheng, Z.; Bai, F.; Xu, Y.; Zheng, G.; Pu, S.; and Zhou, S. 2017. Focusing attention: Towards accurate text recognition in natural images. In ICCV 2017, 5086–5094.
Li, H.; Wang, P.; Shen, C.; and Zhang, G. 2019. Show, attend and read: A simple and strong baseline for irregular text recognition. In AAAI, volume 33, 8610–8617.
Liao, M.; Zhang, J.; Wan, Z.; Xie, F.; Liang, J.; Lyu, P.; Yao, C.; and Bai, X. 2019. Scene text recognition from two-dimensional perspective. In AAAI.
Long, S.; He, X.; and Ya, C. 2018. Scene text detection and recognition: The deep learning era. arXiv preprint arXiv:1811.04256.
Phan, T. Q.; Shivakumara, P.; Tian, S.; and Tan, C. L. 2013. Recognizing text with perspective distortion in natural scenes. In 2013 IEEE International Conference on Computer Vision, 569–576.
Jaderberg, M.; Simonyan, K.; Vedaldi, A.; and Zisserman, A. 2014a. Deep structured output learning for unconstrained text recognition. arXiv preprint arXiv:1412.5903.
Shi, B.; Yang, M.; Wang, X.; Lyu, P.; Yao, C.; and Bai, X. 2018. Aster: An and attentional scene and text recognizer and with ﬂexible and rectiﬁcation. In PAMI, 1–1. IEEE.
Risnumawan, A.; Shivakumara, P.; Chan, C. S.; and Tan, C. L. 2014. A robust arbitrary text detection system for natural scene images. Expert Systems with Applications 41(18):8027 – 8048.
LeCun, Y.; Bottou, L.; Bengio, Y.; Haffner, P.; et al. Gradient-based learning applied to document recognition. 1998. Proceedings of the IEEE 86(11):2278–2324.
Lee, C.-Y., and Osindero, S. 2016. Recursive recurrent nets with attention modeling for ocr in the wild. In CVPR, 2231–2239.

OCR交流群

关注最新最前沿的OCR、场景文本检测、识别技术&＃xff0c;扫码添加CV君拉你入群&＃xff0c;&＃xff08;如已为CV君其他账号好友请直接私信&＃xff09;

&＃xff08;请务必注明&＃xff1a;OCR&＃xff09;

喜欢在QQ交流的童鞋&＃xff0c;可以加52CV官方QQ群&＃xff1a;805388940。

&＃xff08;不会时时在线&＃xff0c;如果没能及时通过验证还请见谅&＃xff09;

长按关注我爱计算机视觉

推荐阅读

int
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
int
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
int
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
filter
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
int
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
int
c语言\n不换行,c语言printf不换行

$c语言\n不换行,c语言printf不换行$

本文目录一览：1、C语言不换行输入2、c语言的 ... [详细]

蜡笔小新 2023-12-14 11:05:35
int
二叉树层序创建问题的解决方法

本文介绍了解决二叉树层序创建问题的方法。通过使用队列结构体和二叉树结构体，实现了入队和出队操作，并提供了判断队列是否为空的函数。详细介绍了解决该问题的步骤和流程。 ... [详细]

蜡笔小新 2023-12-13 18:20:50
copy
clone的fork与pthread_create创建线程有何不同

本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境，其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时，子进程只是完全复制父进程的资源，这样得到的子进程独立于父进程，具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制，另外通过fork创建子进程系统开销很大。因此，在某些情况下，使用clone或pthread_create创建线程可能更加高效。 ... [详细]

蜡笔小新 2023-12-12 20:00:06
int
李逍遥寻找仙药的迷阵之旅

本文讲述了少年李逍遥为了救治婶婶的病情，前往仙灵岛寻找仙药的故事。他需要穿越一个由M×N个方格组成的迷阵，有些方格内有怪物，有些方格是安全的。李逍遥需要避开有怪物的方格，并经过最少的方格，找到仙药。在寻找的过程中，他还会遇到神秘人物。本文提供了一个迷阵样例及李逍遥找到仙药的路线。 ... [详细]

蜡笔小新 2023-12-12 13:59:33
数组
是否可以创建一个struct实例数组？ - Is it possible to create an array of struct instances?

Iamtryingtocreateanarrayofstructinstanceslikethis:我试图创建一个这样的struct实例数组：letinstallers: ... [详细]

蜡笔小新 2023-12-10 15:09:37
int
c# 联合halcon 基于相关性模板匹配_HALCON形状匹配详解

点击上方“新机器视觉”，选择加”星标”或“置顶”重磅干货，第一时间送达很早就想总结一下前段时间学习HALCON的心得，但由于其他的事情总是抽不出时间。去年有过一段时间的集中学习，做 ... [详细]

蜡笔小新 2023-10-17 18:47:00
int
从Eclipse运行时不出现Java JFrame窗口 - Java JFrame Window not appearing when run from Eclipse

Averysimpleproblem.ItrytorunaverysimpledemotocreatedanddisplayaWindowFramefromEc ... [详细]

蜡笔小新 2023-10-14 15:39:55
int
65位高校教师接龙晒工资！给打算入高校的研究生们参考！

本文转载自：募格学术|来源：麦可思研究综合整理自小木虫论坛前有清华教授被骗千万，后有某重点高校青年教师晒出月薪900的工资条， ... [详细]

蜡笔小新 2023-10-14 11:55:45
int
论文笔记_S2D.48_2017IEEE RAL_单视图和多视图深度融合

基本情况题目：Single-viewandmulti-viewdepthfusion出处：FcilJM,ConchaA,MontesanoL,etal ... [详细]

蜡笔小新 2023-10-14 09:40:54
bit
拯救万千学子于水深火热之中！Facebook开源无梯度优化工具

乾明发自凹非寺量子位出品|公众号QbitAI机器学习啥最苦？十有八九找参数！不少研究生，都被卡在这个环节上，久久不能毕业。现 ... [详细]

蜡笔小新 2023-10-13 15:46:29