作者:happy玛奇朵_387 | 来源:互联网 | 2023-10-15 18:16
文章目录摘要细节开源代码摘要提出了一个统一的四阶段STR框架。Transformation:TPS,归一化字符区域到预定义的矩形,校正图像。Featureextraction
摘要 提出了一个统一的四阶段STR框架。
Transformation: TPS,归一化字符区域到预定义的矩形,校正图像。 Feature extraction : ResNet、GRCNN、MobileNet、VGG,提取与字符识别相关的特征。 Sequence modeling(Context modeling): BiLSTM或BiGRU,捕获字符序列的上下文信息,使字符预测更稳健,而不是单独预测。 Prediction: CTC、Attention,从图像的可识别特征预测字符序列。CTC可以预测不固定数量的序列即使给定固定数量的特征。CTC的关键是在每列($h_i 属于 H $)预测一个字符,并且通过删除重复字符和空白将全部字符序列修改到一个不固定的字符序列。Attn自动捕获输入序列中的信息流,预测输出序列。 细节 训练样本的多样性比训练样本的数量重要 ResNet、BiLSTM、TPS的加入,使得耗时从1.3ms增加到10.9ms,然而极大提升了准确率(从69.5%到82.9%)。Attn值提升了1.1%的准确率,代价是效率降低(27.6ms) 当用于fine-tune的真实数据与测试数据的分布相近时,fine-tune是有效的;否则,就是对准确率有害的。
开源代码 这篇文章提出的框架对OCR领域有较大影响。百度开源的PaddleOCR就是根据它的框架来实现的。 相关链接: (1)论文的官方开源代码deep-text-recognition-benchmark:https://github.com/clovaai/deep-text-recognition-benchmark (2)百度的PaddleOCR:https://github.com/PaddlePaddle/PaddleOCR (3)WenmuZhou大佬的PytorchOCR:https://github.com/WenmuZhou/PytorchOCR