热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

VALSE文档图像智能报告整理

目录未来可能的发展趋势与工业应用结合方向强人工智能端到端检测识别文字擦除和编辑更高效的语言模型文字辅助场景理解视频文字擦除和文档矫正文字识别文档图像理解未来可能的发展趋势超大规模


目录

      • 未来可能的发展趋势
      • 与工业应用结合方向
      • 强人工智能
      • 端到端检测识别
      • 文字擦除和编辑
      • 更高效的语言模型
      • 文字辅助场景理解
      • 视频文字擦除和文档矫正
      • 文字识别
      • 文档图像理解


未来可能的发展趋势


  • 超大规模的场景文本检测识别数据集。类似于文字领域的ImageNet
  • 检测和识别相互交融更为紧密(或者相互融合)的Text Spotter
  • 结合多模态信息的文字检测识别在不同场景泛化性改进方案(prompting)
  • 针对现有文字检测识别方法的强化方法(arming)及后处理(post correctiong)
  • 更加统一的Text Spotter对比方式(unified setting)
  • 统一多任务的文档智能方法(Multi-tasks)
  • 弱/无定位框(No Point Text Spotter)
  • 开集/艺术字/手写公式识别
  • 文字篡改、异常检测(tampering text detection)
  • 文字辅助视觉场景理解(text-based vision language)
  • 古籍文字恢复/重建/回溯
  • 基于自然语言处理的智能文字符号设计及生成

与工业应用结合方向


  • 传统应用方向
  • 硬币/印章/LOGO 复杂场景弯曲文字检测
  • 手写公式识别
  • 文字擦除应用(教育方向)
  • 文字篡改检测
  • 历史信息恢复/归档
  • 重叠票据文档文字识别及关键信息提取

强人工智能


  • OCR+NLP

端到端检测识别


  • 探索检测和识别的协同作用
    • (CVPR2022) SwinTextSpotter
      • 提出了一种识别转换机制,以发挥文字检测和识别的协同作用
      • 不需要单字的标注和额外的矫正器
  • 减少对标注的依赖
    • (ACMMM 2022) SPTS: Single-Point Text Spotting.
      • 采用自回归的方式完成检测和识别
      • 采用单点检测标注进行端到端识别
    • (CVPR 2022) Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer.
      • 提出了一种弱监督的训练方法,只需要使用识别的标注,不需要文本的位置坐标
    • (ACM MM 2022) You can even Annotate Text with Voice: Transcription-only-Supervised Text Spotting.
      • 提出了一种弱监督的训练方法,只需要使用识别的标注,不需要文本的位置标注
      • 提出一种从粗到系的交叉注意力定位机制,在没有用文本检测标注的情况下,获得近似的位置
      • 使用语音作标注
  • 去除一些不必要的组件
    • (CVPR 2022) Text Spotting Transformer.
      • 提出了一种单编码器、双解码器的结构。一个解码器负责检测,一个解码器负责识别。
      • 不需要NMS和RoI操作。

文字擦除和编辑


  • (ECCV 2022) Don’t Forget Me: Accurate Background Recovery for Text Removal via Modeling Local-Global Context.
    • 对低层次和高层次的语义进行学习,来帮助文本擦除和随后的背景纹理合成
    • 提出一个局部全局的建模网路来提取长距离特征
  • (ICCV 2021) De-rendering Stylized Texts
    • 将文本编辑表述为一个去渲染的问题。从给定图像中解析出潜在不合适的渲染参数
    • 提出了一个矢量化模型来解析详细的文本信息

更高效的语言模型


  • (ICCV 2021) Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition.
    • 提出一个多阶段多尺度的注意力解码器
    • 第一阶段从视觉特征进行预测,然后利用视觉语义联合信息进行细化
  • (ICCV 2021) From Two to One: A New Scene Text Recognizer with visual Language Modeling Network.
    • 通过在视觉空间上进行遮挡字符,从而让视觉模型有学习语言建模的能力

文字辅助场景理解


  • (CVPR 2022) Knowledge Mining with Scene Text for Fine-Grained Recognition.
    • 通过挖掘场景文本背后的上下文知识来提高多模态理解任务的性能。
  • (ECCV 2022) Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting Annotated Bounding Boxes vis Reinforcement Learning.
    • 引入方框调整器,它可以调整每个注释的文本边界方框的形状,使其与后续的文本识别模型更加兼容
    • 提出了一个基于文本识别奖励来训练BoxDQN模型,以捕获最佳的注释边界框

视频文字擦除和文档矫正


  • (ICCV 2021) STRIVE: Scene Text Replacement In videos.
    • 使用时空转换网络将所有帧中的文字矫正
    • 使用图片中文字编辑的方法替换单一参考帧中的文字,并且使用时空转换网络还原矫正的文字
    • 提供了一个视频文本编辑的数据集

文字识别


  • 自监督预训练

    • (CVPR 2022) SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware Normalization.
      • 通过相似度估计,将相邻图像块上的对应风格迁移到正确的位置,促进模型在内容和风格上的表征能力
    • (CVPR 2022) Pushing the Performance Limit of Scene Text Recognizer without Human Annotation.
      • 提出一种基于一致性正则化的半监督框架来使用无标签的真实数据
      • 提出一种字符级的一致性正则化方法,来对齐字符
  • 对比学习

    • (AAAI 2022) Perceiving Stroke-Semantic Context: Hierarchical Contrastive Learning for Robust Scene Text Recognition.
      • 该论文提出了一种双重上下文感知器,可对无标签的文本图像数据,同时从低级别笔划和高级别语义上下文空间中进行对比学习
    • (AAAI 2022) Context-based Contrastive Learning for Scene Text Recognition.
      • 通过将不同上下文中相同字符的群集拉在一起,并在嵌入空间中推开不同字符的群集,抑制了过度适应特定上下文的副作用,并学习了更健壮的表示
  • (ECCV 2022) When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition.

    • 联合数学公式识别和符号计数
    • 设计了一个弱监督的计数模块,可以在没有符号级位置的情况下预测每个符号类别的数量,然后将其插入一个典型的基于注意力的数学公式编码器-解码器模型中。
  • (ECCV 2022) SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily Oriented Scene Text Recognition.

    • 使用语义GAN,调整支持域和目标域之间的语义特征分布
    • 提出平衡注意模块,解决注意力漂移问题
  • (ECCV 2022) Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition.

    • 提出了一个新的艺术字数据集
    • 采用了角点来指导字符内部局部特征的提取
    • 设计了一个字符对比性损失来对字符特征进行建模,以改善字符分类的特征表示

文档图像理解


  • (CVPR 2022) Layout-Aware Transformer for Scene-Text VQA
    • 提出了一个布局感知的预训练和架构来考虑布局信息与语义表征
    • 揭示了文档文本和场景文本之间的关系。文档文本的布局信息可以很好地促进场景文本信息的理解
  • (ACMM 2022) Towards Complex Document Understanding By Discrete Reasoning.
    • 提出了一个新的文档VQA数据集
    • 提出了一个多模态编码器,将问题以及文档文字、布局和视觉图像信息作为输入,然后输出结果
  • (AAAI 2022) BROS: A Pre-trained language Model Focusing on Text and Layout for Better Key Information Extraction from Documents.
    • 提出了一个对二维空间中文本的相对位置进行编码,并使用区域掩蔽策略利用无标签文档进行无监督学习的预训练语言模型
  • (ACMM 2022) LayoutuMv3: Pre-training for Document AI with Unified Text and Image Masking.
    • 不依赖预先训练好的CNN或Faster R-CNN主干来提取视觉特征
    • 使用统一的文本和图像掩码预训练目标

推荐阅读
author-avatar
_Terr1鄭x宜_F
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有