当前位置: 开发笔记 > 编程语言 > 正文

VALSE文档图像智能报告整理

作者：_Terr1鄭x宜_F | 来源：互联网 | 2023-07-11 20:24

目录未来可能的发展趋势与工业应用结合方向强人工智能端到端检测识别文字擦除和编辑更高效的语言模型文字辅助场景理解视频文字擦除和文档矫正文字识别文档图像理解未来可能的发展趋势超大规模

未来可能的发展趋势

超大规模的场景文本检测识别数据集。类似于文字领域的ImageNet
检测和识别相互交融更为紧密&＃xff08;或者相互融合&＃xff09;的Text Spotter
结合多模态信息的文字检测识别在不同场景泛化性改进方案&＃xff08;prompting&＃xff09;
针对现有文字检测识别方法的强化方法&＃xff08;arming&＃xff09;及后处理&＃xff08;post correctiong&＃xff09;
更加统一的Text Spotter对比方式&＃xff08;unified setting&＃xff09;
统一多任务的文档智能方法&＃xff08;Multi-tasks&＃xff09;
弱/无定位框&＃xff08;No Point Text Spotter&＃xff09;
开集/艺术字/手写公式识别
文字篡改、异常检测&＃xff08;tampering text detection&＃xff09;
文字辅助视觉场景理解&＃xff08;text-based vision language&＃xff09;
古籍文字恢复/重建/回溯
基于自然语言处理的智能文字符号设计及生成

与工业应用结合方向

传统应用方向
硬币/印章/LOGO 复杂场景弯曲文字检测
手写公式识别
文字擦除应用(教育方向)
文字篡改检测
历史信息恢复/归档
重叠票据文档文字识别及关键信息提取

强人工智能

OCR&＃43;NLP

端到端检测识别

探索检测和识别的协同作用
- (CVPR2022) SwinTextSpotter
  - 提出了一种识别转换机制&＃xff0c;以发挥文字检测和识别的协同作用
  - 不需要单字的标注和额外的矫正器
减少对标注的依赖
- (ACMMM 2022) SPTS: Single-Point Text Spotting.
  - 采用自回归的方式完成检测和识别
  - 采用单点检测标注进行端到端识别
- (CVPR 2022) Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer.
  - 提出了一种弱监督的训练方法&＃xff0c;只需要使用识别的标注&＃xff0c;不需要文本的位置坐标
- (ACM MM 2022) You can even Annotate Text with Voice: Transcription-only-Supervised Text Spotting.
  - 提出了一种弱监督的训练方法&＃xff0c;只需要使用识别的标注&＃xff0c;不需要文本的位置标注
  - 提出一种从粗到系的交叉注意力定位机制&＃xff0c;在没有用文本检测标注的情况下&＃xff0c;获得近似的位置
  - 使用语音作标注
去除一些不必要的组件
- (CVPR 2022) Text Spotting Transformer.
  - 提出了一种单编码器、双解码器的结构。一个解码器负责检测&＃xff0c;一个解码器负责识别。
  - 不需要NMS和RoI操作。

文字擦除和编辑

(ECCV 2022) Don’t Forget Me: Accurate Background Recovery for Text Removal via Modeling Local-Global Context.
- 对低层次和高层次的语义进行学习&＃xff0c;来帮助文本擦除和随后的背景纹理合成
- 提出一个局部全局的建模网路来提取长距离特征
(ICCV 2021) De-rendering Stylized Texts
- 将文本编辑表述为一个去渲染的问题。从给定图像中解析出潜在不合适的渲染参数
- 提出了一个矢量化模型来解析详细的文本信息

更高效的语言模型

(ICCV 2021) Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition.
- 提出一个多阶段多尺度的注意力解码器
- 第一阶段从视觉特征进行预测&＃xff0c;然后利用视觉语义联合信息进行细化
(ICCV 2021) From Two to One: A New Scene Text Recognizer with visual Language Modeling Network.
- 通过在视觉空间上进行遮挡字符&＃xff0c;从而让视觉模型有学习语言建模的能力

文字辅助场景理解

(CVPR 2022) Knowledge Mining with Scene Text for Fine-Grained Recognition.
- 通过挖掘场景文本背后的上下文知识来提高多模态理解任务的性能。
(ECCV 2022) Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting Annotated Bounding Boxes vis Reinforcement Learning.
- 引入方框调整器&＃xff0c;它可以调整每个注释的文本边界方框的形状&＃xff0c;使其与后续的文本识别模型更加兼容
- 提出了一个基于文本识别奖励来训练BoxDQN模型&＃xff0c;以捕获最佳的注释边界框

视频文字擦除和文档矫正

(ICCV 2021) STRIVE: Scene Text Replacement In videos.
- 使用时空转换网络将所有帧中的文字矫正
- 使用图片中文字编辑的方法替换单一参考帧中的文字&＃xff0c;并且使用时空转换网络还原矫正的文字
- 提供了一个视频文本编辑的数据集

文字识别

自监督预训练
- (CVPR 2022) SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware Normalization.
  - 通过相似度估计&＃xff0c;将相邻图像块上的对应风格迁移到正确的位置&＃xff0c;促进模型在内容和风格上的表征能力
- (CVPR 2022) Pushing the Performance Limit of Scene Text Recognizer without Human Annotation.
  - 提出一种基于一致性正则化的半监督框架来使用无标签的真实数据
  - 提出一种字符级的一致性正则化方法&＃xff0c;来对齐字符
对比学习
- (AAAI 2022) Perceiving Stroke-Semantic Context: Hierarchical Contrastive Learning for Robust Scene Text Recognition.
  - 该论文提出了一种双重上下文感知器&＃xff0c;可对无标签的文本图像数据&＃xff0c;同时从低级别笔划和高级别语义上下文空间中进行对比学习
- (AAAI 2022) Context-based Contrastive Learning for Scene Text Recognition.
  - 通过将不同上下文中相同字符的群集拉在一起&＃xff0c;并在嵌入空间中推开不同字符的群集&＃xff0c;抑制了过度适应特定上下文的副作用&＃xff0c;并学习了更健壮的表示
(ECCV 2022) When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition.
- 联合数学公式识别和符号计数
- 设计了一个弱监督的计数模块&＃xff0c;可以在没有符号级位置的情况下预测每个符号类别的数量&＃xff0c;然后将其插入一个典型的基于注意力的数学公式编码器-解码器模型中。
(ECCV 2022) SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily Oriented Scene Text Recognition.
- 使用语义GAN&＃xff0c;调整支持域和目标域之间的语义特征分布
- 提出平衡注意模块&＃xff0c;解决注意力漂移问题
(ECCV 2022) Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition.
- 提出了一个新的艺术字数据集
- 采用了角点来指导字符内部局部特征的提取
- 设计了一个字符对比性损失来对字符特征进行建模&＃xff0c;以改善字符分类的特征表示

文档图像理解

(CVPR 2022) Layout-Aware Transformer for Scene-Text VQA
- 提出了一个布局感知的预训练和架构来考虑布局信息与语义表征
- 揭示了文档文本和场景文本之间的关系。文档文本的布局信息可以很好地促进场景文本信息的理解
(ACMM 2022) Towards Complex Document Understanding By Discrete Reasoning.
- 提出了一个新的文档VQA数据集
- 提出了一个多模态编码器&＃xff0c;将问题以及文档文字、布局和视觉图像信息作为输入&＃xff0c;然后输出结果
(AAAI 2022) BROS: A Pre-trained language Model Focusing on Text and Layout for Better Key Information Extraction from Documents.
- 提出了一个对二维空间中文本的相对位置进行编码&＃xff0c;并使用区域掩蔽策略利用无标签文档进行无监督学习的预训练语言模型
(ACMM 2022) LayoutuMv3: Pre-training for Document AI with Unified Text and Image Masking.
- 不依赖预先训练好的CNN或Faster R-CNN主干来提取视觉特征
- 使用统一的文本和图像掩码预训练目标

推荐阅读

go
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
go
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
const
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
post
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
go
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
select
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
go
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
stream
解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法

本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法，包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时，还介绍了修改nginx的error.log日志级别为debug，以便查看详细日志信息。 ... [详细]

蜡笔小新 2023-12-12 13:19:04
schema
如何进行Web.Config自定义配置节的配置转换

本文讨论了如何使用Web.Config进行自定义配置节的配置转换。作者提到，他将msbuild设置为详细模式，但转换却忽略了带有替换转换的自定义部分的存在。 ... [详细]

蜡笔小新 2023-12-11 17:54:55
post
利用RxJava实现的事件总线（Event Bus）及其使用方法介绍

本文介绍了RxJava在Android开发中的广泛应用以及其在事件总线（Event Bus）实现中的使用方法。RxJava是一种基于观察者模式的异步java库，可以提高开发效率、降低维护成本。通过RxJava，开发者可以实现事件的异步处理和链式操作。对于已经具备RxJava基础的开发者来说，本文将详细介绍如何利用RxJava实现事件总线，并提供了使用建议。 ... [详细]

蜡笔小新 2023-12-11 12:16:40
post
如何使用readlink获取文件的完整路径？

本文介绍了使用readlink命令获取文件的完整路径的简单方法，并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]

蜡笔小新 2023-12-09 17:28:17
go
Ubuntu 11.10 x64环境下安装Android开发环境及解决常见问题

本文介绍了在Ubuntu 11.10 x64环境下安装Android开发环境的步骤，并提供了解决常见问题的方法。其中包括安装Eclipse的ADT插件、解决缺少GEF插件的问题以及解决无法找到'userdata.img'文件的问题。此外，还提供了相关插件和系统镜像的下载链接。 ... [详细]

蜡笔小新 2023-12-09 09:41:58
email
从批量eml文件中提取附件的Python代码实现方法

本文介绍了使用Python代码从批量eml文件中提取附件的实现方法，包括获取eml附件信息、递归文件夹下所有文件、创建目的文件夹等步骤。通过该方法可以方便地提取eml文件中的附件，并保存到指定的文件夹中。 ... [详细]

蜡笔小新 2023-12-09 07:17:30
email
七月在线爬虫班学习笔记（七）——高级内容-并发编程

第七课主要内容：多进程多线程FIFO,LIFO,优先队列线程局部变量进程与线程的选择线程池异步IO概念及twisted案例股票数据抓取 ... [详细]

蜡笔小新 2023-10-17 20:16:36
go
Summarize function is doing alignment without timezone ?

Hi.Imtryingtogetsummarizefrom00:00otfirstdayofthismonthametric, ... [详细]

蜡笔小新 2023-10-17 20:11:29

_Terr1鄭x宜_F

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章