作者:mobiledu2502886217 | 来源:互联网 | 2023-06-13 17:55
主页:http://people.ee.ethz.ch/~cvlsegmentation/dextr/ 论文地址:https://arxiv.org/abs/1711.09081 代码:https://github.com/scaelles/DEXTR-PyTorch/
概览 Deep Extreme Cut 基于《Extreme clicking for efficient object annotation》,这篇论文是用户通过 extreme clicking 做物体标注任务,也就是画一个物体的 bounding box。
Deep Extreme Cut 将 extreme points 作为 guiding signal 输入到网络中去:
为 extreme points 形成的 bounding box 区域内创建 heatmap 2D Gaussian 将 heatmap 与原 RGB 图像进行连接,形成一个 4 通道的 CNN 主要方法:
使用目标物体的 extreme points(极限点),即最左、最右、最上、最下方的四个点作为输入,以此获得图像分割结果。
网络结构:
backbone:ResNet-101
去掉了全连接层和最后两个 stage 的最大池化层,这样做是为了保持图像分辨率(和 FCN 一样),在最后两个 stage 用了 atrous convolution,用于保持相同大小的 receptive field,在最后,使用 pyramid scene parsing module,向最终的 feature map 中添加 global context。
预训练:ImageNet 数据集
方法细节 画 bounding box 的目的: 是为了获得 ROI 区域,排除其他信息对分割任务的干扰。所以这里就用 extreme points 获得目标物体的 bounding box,然后根据 bbox 对原图进行 crop
另外,又为了包含目标物体的上下文信息,所以 crop 并非严格按照 extreme points 得到的 bounding box 进行 crop,而是将这个 tight bounding box 稍微向外扩大几个像素
所以在数据的预处理阶段,就是进行 extreme clicking,然后根据这些 extreme points 得到一个 bounding box,最后输入网络的是 crop 后的原 RGB 图像 + extreme points
crop 策略:
使用 Obejct-centered crop,也就是以物体为中心的 crop 方式,这样得到的结果中,属于前景的 sample 应该要多于属于背景的 sample。
DEXTR使用场景 1)Class-agnostic Instance Segmentation(未知类别的实例分割)
实验数据集:PASCALA 和 Grabcut
2)Annotation(标注任务)
3)Video Object Segmentation(视频目标分割)
实验数据集:DAVIS-2016 和 DAVIS-2017
4)Interactive Object Segmentation(交互式分割)
用户给出 4 个 extreme points,得到一个自动的分割结果,如果不满意这个初始的分割结果,可以在误分割的区域上再额外给出一个点,论文中建议这个 extra point 最好也在目标物体的 boundary 上
实验部分 数据集: PASCAL,COCO,DAVIS-2016,DAVIS-2017,Grabcut
这里作者给出了一系列 ablation experiment(消融实验) ,消融实验实际上就是在证明提出的某个方法 “确实有效果”,即对比的就是没有加某个方法前和加了某个方法之后性能是否有提升、提升了多少。(也不知道为啥叫的这么唬人)
1)网络结构
采用的结构:ResNet-101 对比结构:Deeplab-v2,Mask R-CNN
2)bounding box 和 extreme points
对比 Deeplab-v2 使用 bounding box 做分割任务和本文用 extreme points 做分割任务,后者提升了 3.1%
3)loss function
对比两种损失函数,standard cross-entropy 和 class-balanced version
结论: balanced version 更好,提升性能 3.3%
4)Full image 和 crops
对比 CNN 是输入整张图像好还是输入 crop 后的图像好
结论: 输入 crop 后的图像提升性能 7.9%,而且对小物体分割的提升更大
原因: cropping 排除了无关信息的干扰
5)Atrous spatial pyramid(ASPP) 和 pyramid scene parsing(PSP) module
结论: PSP module 提升 2.3%
6)Manual extreme points 和 simulated extreme points
比较人工点击 extreme points 和模拟生成的 extreme points 得到的分割结果有什么不同 结论: 分割结果差不多
7)Distance-map 和 fixed points
消融实验总结: