当前位置: 开发笔记 > 编程语言 > 正文

ECCV2022｜美团上海交大提出PromptDet：无需手动标注！迈向开放词汇的目标检测！...

作者：手浪用户2602898067 | 来源：互联网 | 2023-08-01 10:25

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达转载自：极市平台|作者：冯承健导读本文提出了一个开放世界的

点击下方卡片&＃xff0c;关注“CVer”公众号

AI/CV重磅干货&＃xff0c;第一时间送达

转载自&＃xff1a;极市平台 | 作者&＃xff1a;冯承健

导读

本文提出了一个开放世界的目标检测器PromptDet&＃xff0c;它能够在没有任何手动标注的情况下检测新类别&＃xff0c;其中提出区域prompt学习方法和针对网络图像的自训练方法&＃xff0c;性能表现SOTA。

主页&＃xff1a;https://fcjian.github.io/promptdet

论文&＃xff1a;https://arxiv.org/abs/2203.16513

代码&＃xff1a;https://github.com/fcjian/PromptDet

本文提出了一个开放世界的目标检测器PromptDet&＃xff0c;它能够在没有任何手动标注的情况下检测新类别&＃xff08;如下图绿色检测框&＃xff09;&＃xff0c;其中提出区域prompt学习方法和针对网络图像的自训练方法&＃xff0c;性能表现SOTA。

Abstract

这项工作的目标是建立一个可扩展的pipeline&＃xff0c;使用零手动标注将目标检测器扩展到新的/看不见的类别。为了实现这一点&＃xff0c;我们做出了以下四项贡献&＃xff1a;&＃xff08;i&＃xff09;为了追求泛化性&＃xff0c;我们提出了一个两阶段的开放词汇目标检测器&＃xff0c;使用来自预训练视觉语言模型的文本编码器对类别无关的物体提议区域进行分类&＃xff1b;(ii) 为了将RPN 提议区域的视觉潜在空间与预训练文本编码器的潜在空间配对&＃xff0c;我们提出了区域prompt学习的想法&＃xff0c;以将文本嵌入空间与物体区域的视觉特征对齐&＃xff1b;(iii) 为了扩大学习过程以检测更广泛的类别&＃xff0c;我们通过一种新颖的自训练框架利用可用的在线资源&＃xff0c;该框架允许在大量嘈杂的未经处理的网络图像上训练所提出的检测器。最后&＃xff0c;&＃xff08;iv&＃xff09;为了评估我们提出的检测器&＃xff0c;称为PromptDet&＃xff0c;我们对具有挑战性的 LVIS 和MS-COCO数据集进行了广泛的实验。与现有方法相比&＃xff0c;PromptDet使用更少的额外训练图像和零手动标注&＃xff0c;表现出卓越的检测性能。

Motivation

目标检测一直是计算机视觉中研究最广泛的问题之一&＃xff0c;其目标是同时对图像中的目标进行定位和分类。在最近的文献中&＃xff0c;检测社区通过对大规模数据集的训练取得了巨大的成功&＃xff0c;例如PASCAL VOC&＃xff0c;MS-COCO&＃xff0c;它们详尽标注了特定类别的物体边界框和类别。然而&＃xff0c;这种训练机制的可扩展性显然是有限的&＃xff0c;因为该模型只能在易于收集和标注大规模数据的封闭且小范围的类别上表现良好。

另一方面&＃xff0c;最近大规模的视觉语言预训练在开放词汇图像分类方面取得了巨大成功&＃xff0c;这为扩展检测器词汇提供了可操作的机会。具体来说&＃xff0c;这些视觉语言模型&＃xff08;例如CLIP和 ALIGN&＃xff09;通常通过噪声对比学习在十亿规模的嘈杂的图像-文本对上进行训练&＃xff0c;展示出了理解图像中显著物体的能力&＃xff08;即‘what’&＃xff09;。然而&＃xff0c;以相同的方式使用图像-文本对训练检测器&＃xff0c;显然对可扩展性提出了重大挑战&＃xff0c;因为它不仅要求文本要包含对象的语义&＃xff08;即‘what’&＃xff09;&＃xff0c;还需要空间信息&＃xff08;即&＃39;where&＃39;&＃xff09;。因此&＃xff0c;社区在开放词汇目标检测中考虑了一个稍微保守的场景&＃xff1a;给定现有的在某些基本类别的大量数据上进行训练的目标检测器&＃xff0c;我们希望用最少的人力扩展检测器定位和识别新类别的能力。

本文描述了一种将视觉潜在空间与预训练的语言编码器配对的简单想法&＃xff0c;即继承CLIP的文本编码器作为“分类器”生成器&＃xff0c;只训练检测器的视觉骨干和与类别无关的区域提取网络。我们方法的新颖之处在于对齐视觉和文本潜在空间的两个步骤。首先&＃xff0c;我们提出在文本编码器端学习一定数量的prompt向量&＃xff0c;称为区域prompt学习&＃xff08;简称RPL&＃xff09;&＃xff0c;从而可以转换其潜在空间&＃xff0c;以更好地与以物体为中心的视觉特征配对。其次&＃xff0c;我们通过从互联网上检索一组未经处理的候选图像来进一步迭代优化prompt向量&＃xff0c;并在检索到的候选图像上生成伪标签&＃xff0c;对检测器进行自训练&＃xff08;self-training&＃xff09;。我们命名这个检测器为PromptDet。在实验上&＃xff0c;尽管候选图像中存在噪声&＃xff0c;但这种自训练机制在开放词汇泛化方面&＃xff0c;特别是在没有可用标注框的类别上&＃xff0c;显示出显著的提升。

Methodology

Open Vocabulary Object Detector

一般来说&＃xff0c;流行的两阶段目标检测器&＃xff0c;例如Mask-RCNN&＃xff0c;由视觉骨干编码器&＃xff08;ENC&＃xff09;、区域提议网络&＃xff08;RPN&＃xff09;和分类模块&＃xff08;CLS&＃xff09;组成&＃xff1a;

因此&＃xff0c;构建一个开放词汇的目标检测器需要解决两个后续问题&＃xff1a;&＃xff08;1&＃xff09;有效地生成与类别无关的提议区域&＃xff0c;以及&＃xff08;2&＃xff09;准确地将这些提议区域分类到一组闭集之外的视觉类别&＃xff08;新类别&＃xff09;&＃xff0c;即开放式词汇分类。

Class-agnostic region proposal networks&＃xff08;&＃xff09;&＃xff1a;指不管它们的类别如何&＃xff0c;提取所有可能有物体的区域的能力。在这里&＃xff0c;我们以与类别无关的方式对anchor分类、box回归和mask预测进行参数化&＃xff0c;即为所有类别共享参数。

Open-vocabulary classification&＃xff08;&＃xff09;&＃xff1a;旨在对固定大小词汇之外的视觉对象进行分类。我们假设视觉和自然语言之间存在一个共同的潜在空间&＃xff0c;我们可以在语言潜在空间中寻找其最接近的嵌入来对任何视觉对象进行分类&＃xff0c;例如&＃xff0c;将区域特征分类为“almond”或“dog”&＃xff0c;可以计算出“almond”的分类概率&＃xff1a;

Naive Alignment via Detector Training

在本节中&＃xff0c;我们的目标是在基本类别上训练一个开放词汇的目标检测器&＃xff08;基于Mask-RCNN&＃xff09;&＃xff0c;即只使用基本类别来优化视觉骨干和与类别无关的RPN&＃xff0c;与继承自CLIP的预训练文本编码器的分类器对齐。

然而&＃xff0c;正如我们的实验所表明的那样&＃xff0c;将视觉潜在空间与文本空间自然对齐只会产生非常有限的开放词汇检测性能&＃xff08;新类别7.4 AP&＃xff09;。我们推测泛化能力差主要来自三个方面&＃xff1a;

&＃xff08;i&＃xff09;仅使用类名计算类别嵌入是次优的&＃xff0c;因为它们可能不够精确&＃xff0c;无法描述视觉概念&＃xff0c;导致词汇歧义&＃xff0c;例如&＃xff0c;“almond”可能是指具有硬壳的可食用的椭圆形坚果&＃xff0c;也可以是指其生长的树&＃xff1b;

&＃xff08;ii&＃xff09;用于训练CLIP的网络图像以场景为中心&＃xff0c;物体仅占图像的一小部分&＃xff0c;而来自RPN的物体提议区域通常会紧密定位对象&＃xff0c;导致视觉表示上存在明显的域差距&＃xff1b;

&＃xff08;iii&＃xff09;用于检测器训练的基本类别的多样性明显低于用于训练CLIP的类别多样性&＃xff0c;因此&＃xff0c;可能不足以保证对新类别的泛化。

Alignment via Regional Prompt Learning

我们提出了一个简单的区域prompt学习 (RPL) 概念&＃xff0c;引导文本潜在空间以更好地拟合以物体为中心的图像。具体来说&＃xff0c;在计算类别分类器或嵌入时&＃xff0c;我们将一系列可学习向量添加到文本输入中&＃xff0c;称为“连续prompt向量”。此外&＃xff0c;我们还在prompt模板中包含更详细的描述以减轻词汇的歧义&＃xff0c;例如&＃xff0c;{category: “almond”, description: “oval-shaped edible seed of the almond tree”}。因此&＃xff0c;每个单独类别的嵌入可以生成为&＃xff1a;

由于可学习向量与类别无关&＃xff0c;并且为所有类别共享&＃xff0c;因此它们可以在训练后迁移到新类别。我们从LVIS中获取基本类别的物体裁剪区域&＃xff0c;相应地调整它们的大小&＃xff0c;并通过冻结的CLIP视觉编码器生成图像嵌入&＃xff0c;使用标准的交叉熵损失对这些图像嵌入进行分类。为了优化prompt向量&＃xff0c;我们将视觉和文本编码器都冻结&＃xff0c;只更新可学习的prompt向量。

PromptDet: Alignment via Self-training

我们通过将视觉骨干与prompt文本编码器对齐&＃xff0c;获得了一个开放词汇的目标检测器。然而&＃xff0c;RPL仅利用了有限的视觉多样性&＃xff0c;即仅使用基本类别。在本节中&＃xff0c;我们释放了这种限制&＃xff0c;并建议利用大规模、未经处理、嘈杂的网络图像来进一步改进对齐。如图所示&＃xff0c;我们描述了一个学习框架&＃xff0c;它迭代RPL和候选图像检索过程&＃xff0c;然后生成检索图片的伪标签&＃xff0c;并自训练开放词汇目标检测器。

Sourcing candidate images&＃xff1a; 我们将LAION-400M数据集作为初始图像语料库&＃xff0c;为了获取每个类别的候选图像&＃xff0c;我们计算所有图像的视觉嵌入和类别嵌入之间的相似度分数&＃xff0c;保留具有最高相似性的图像。

Iterative prompt learning and image sourcing&＃xff1a; 我们迭代区域prompt学习的过程&＃xff0c;然后以高精度检索图像。实验表明&＃xff0c;这种迭代程序有利于以高精度挖掘以物体为中心的图像&＃xff0c;它能够生成更准确的伪标签&＃xff0c;因此在自训练后大大提高新类别的检测性能。

Bounding box generation&＃xff1a; 我们使用我们的开放词汇检测器对检索到的图像进行推理&＃xff0c;保留其RPN分数最高的前K个建议框&＃xff0c;然后将具有最大分类分数的建议框作为图像的伪标签&＃xff0c;用于自训练目标检测器。

Experiment

Dataset

开放词汇LVIS基准使用的数据集统计如下表所示:

Comparison with the State-of-the-Art

开放词汇LVIS基准目标检测结果。我们最好的模型只训练了72 个epoch&＃xff0c;在新类别中达到了21.4 AP&＃xff0c;分别超过了最近最先进的 ViLD-ens和Detic 4.8 AP 和 3.6 AP。

开放词汇COCO基准目标检测结果。训练了24个epoch的PromptDet在新类别mAP&＃xff08;26.6 AP 对 24.1 AP&＃xff09;和整体 mAP&＃xff08;50.6 AP 对 44.7 AP&＃xff09;上都优于Detic。

Ablation Study

区域prompt学习(RPL) 消融分析&＃xff1a;

自训练&＃xff08;Self-training&＃xff09;消融分析&＃xff1a;

框生成&＃xff08;Box generation&＃xff09;和检索图像数量消融分析&＃xff1a;

RPN和检测头更新以及伪标签生成中候选框数量消融分析&＃xff1a;

Conclusion

本文提出区域prompt学习&＃xff08;RPL&＃xff09;方法调整预训练语言编码器的潜在空间&＃xff0c;以更好地适应下游的目标检测任务。
本文提出目标图像检索和模型自训练&＃xff08;self-training&＃xff09;的完整学习方案&＃xff0c;能够精准检索和有效利用未经处理的线上资源&＃xff0c;大大提升目标检测器的性能。
我们希望本文提出的RPL和自训练方案能够给CV社区带来一些启发&＃xff0c;高效地利用多模态大模型和丰富的线上资源&＃xff0c;提升下游任务的性能。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复&＃xff1a;CVPR2022&＃xff0c;即可下载CVPR 2022论文和代码开源的论文合集

后台回复&＃xff1a;Transformer综述&＃xff0c;即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立扫描下方二维码&＃xff0c;或者添加微信&＃xff1a;CVer222&＃xff0c;即可添加CVer小助手微信&＃xff0c;便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖&＃xff1a;目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。一定要备注&＃xff1a;研究方向&＃43;地点&＃43;学校/公司&＃43;昵称&＃xff08;如目标检测或者Transformer&＃43;上海&＃43;上交&＃43;卡卡&＃xff09;&＃xff0c;根据格式备注&＃xff0c;可更快被通过且邀请进群▲扫码或加微信号: CVer222&＃xff0c;进交流群 CVer学术交流群&＃xff08;知识星球&＃xff09;来了&＃xff01;想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料&＃xff0c;欢迎扫描下方二维码&＃xff0c;加入CVer学术交流群&＃xff0c;已汇集数千人&＃xff01;▲扫码进群 ▲点击上方卡片&＃xff0c;关注CVer公众号

整理不易&＃xff0c;请点赞和在看

推荐阅读

process
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
process
机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析

机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ... [详细]

蜡笔小新 2024-11-05 15:46:18
process
CBAM:卷积块注意模块

CBAM:ConvolutionalBlockAttentionModule论文地址：https:arxiv.orgabs1807.06521简介：我们提出了 ... [详细]

蜡笔小新 2024-10-10 20:39:05
copy
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
tree
[BZOJ2654] Tree 问题：二分查找与 Kruskal 算法结合的优化解决方案

题目《BZOJ2654: Tree》的时间限制为30秒，内存限制为512MB。该问题通过结合二分查找和Kruskal算法，提供了一种高效的优化解决方案。具体而言，利用二分查找缩小解的范围，再通过Kruskal算法构建最小生成树，从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率，还确保了在大规模数据集上的稳定性能。 ... [详细]

蜡笔小新 2024-11-11 18:19:28
python
如何在Conda环境中高效配置并安装PyTorch与TensorFlow GPU版

在Conda环境中高效配置并安装PyTorch和TensorFlow GPU版的方法如下：首先，创建一个新的Conda环境以避免与基础环境发生冲突，例如使用 `conda create -n pytorch_gpu python=3.7` 命令。接着，激活该环境，确保所有依赖项都正确安装。此外，建议在安装过程中指定CUDA版本，以确保与GPU兼容性。通过这些步骤，可以确保PyTorch和TensorFlow GPU版的顺利安装和运行。 ... [详细]

蜡笔小新 2024-11-10 10:49:24
python
神经元研究动态：城市大脑标准化体系及评估指标综合框架分析

神经元研究动态：城市大脑标准化体系及评估指标综合框架分析 ... [详细]

蜡笔小新 2024-11-07 15:56:03
get
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
get
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
process
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
python
利用 Python 中的 Altair 库实现数据抖动的水平剥离分析

利用 Python 中的 Altair 库实现数据抖动的水平剥离分析 ... [详细]

蜡笔小新 2024-11-02 12:39:54
python
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
tree
基于TextBoxes++与RetinaNet的高效开源OCR文本识别模型

本文介绍了一款高效的开源OCR文本识别模型，结合了TextBoxes++和RetinaNet的优势。该模型在文本检测方面表现出色，适用于多种场景。项目代码已托管至GitHub，方便研究人员和开发者使用和改进。 ... [详细]

蜡笔小新 2024-10-26 16:12:00
tree
CVPR 2018 | 旷视科技Face++推出语义分割创新模型——判别特征网络（DFN）

全球计算机视觉顶会CVPR2018（ConferenceonComputerVisionandPatternRecognition，即IEEE国际计算机 ... [详细]

蜡笔小新 2024-10-23 18:11:27
get
pytorch（网络模型训练）

上一篇目录标题网络模型训练小插曲训练模型数据训练GPU训练第一种方式方式二：查看GPU信息完整模型验证网络模型训练小插曲区别importtorchatorch ... [详细]

蜡笔小新 2024-10-13 11:08:13

手浪用户2602898067

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章