微软可可：上下文中常见的对象(MicrosoftCOCO:CommonObjectsinContext)

作者：安乐乐520 | 来源：互联网 | 2023-08-27 11:31

摘要:我们提出了一个新的数据集，目的是将物体识别问题纳入更广泛的场景理解问题中，以推进最先进的物体识别技术。这是通过在自然环境中收集包含普通对象的复杂的日常场景的图像来实现的。对象使用每个实

摘要:我们提出了一个新的数据集，目的是将物体识别问题纳入更广泛的场景理解问题中，以推进最先进的物体识别技术。这是通过在自然环境中收集包含普通对象的复杂的日常场景的图像来实现的。对象使用每个实例分割标记，以帮助精确的对象定位。我们的数据集包含了91个对象类型的照片，它们很容易被4岁的人识别。共有250万个标记的情况下在328K图像数据集的创作汲取了广泛的群众参与类工作者通过检测新的用户界面，例如发现和实例分割。我们提出了一个详细的Pascal，ImageNet比较的数据统计分析，和太阳。最后，利用变形零件模型对包围盒和分割检测结果进行基线性能分析。

1 简介

计算机视觉的主要目标之一是对视觉场景的理解。场景理解涉及到许多任务，包括识别哪些对象存在，在2D和3D中定位对象，确定对象和场景的属性，表征对象之间的关系，以及提供场景的语义描述。当前的对象分类和检测数据集[ 1 ]，[ 2 ]，[ 3 ]，[ 4 ]帮助我们探索与场景理解相关的第一个挑战。例如，ImageNet数据集[ 1 ]，其中包含的图像数量空前的突破，最近启用对象分类和检测方法的研究[ 5 ]、[ 6 ]、[ 7 ]。社区还创建了数据集包含对象的属性[ 8 ]，场景属性[ 9 ]，点[ 10 ]，和三维场景信息[ 11 ]。这就引出了一个显而易见的问题：什么样的数据集将最好地继续推进我们对场景理解的最终目标？
我们介绍了一个新的大规模数据集，它解决了场景理解中的三个核心研究问题：检测对象的非标志性视图（或非规范视角（12））、对象之间的上下文推理和对象的精确二维定位。对于许多类别的对象，存在一个标志性的视图。例如，当对对象类别“自行车”进行基于Web的图像搜索时，顶部检索到的示例出现在配置文件中，在一个整洁的照片中心附近畅通无阻。我们假定当前的识别系统在图标视图上表现得相当好，但却很难识别其他物体——在背景中，部分被遮挡，在杂乱的情况下（13）——反映了实际日常场景的组成。实验验证了这一点；在对日常场景进行评价时，对我们的数据进行训练的模型比以前的数据集训练的模型更好。一个挑战是找到包含多个对象的自然图像。许多对象的身份只能通过上下文来解决，因为图像中存在小尺寸或模糊的外观。为了推动语境推理的研究，必须对场景3进行描述，而不是孤立地描述对象。最后，我们认为，详细的空间布局的空间理解将是场景分析的核心组成部分。可以使用包围盒2或具有精确像素级分割[ 14 ]，[ 15 ]，[ 16 ]粗略地定义对象的空间位置。正如我们演示的那样，为了测量任何一种本地化性能，数据集必须对每个对象类别的每个实例进行标记和完全分段。我们的数据集在实例级分割掩码的注释中是独一无二的，如图1所示。

图1：虽然以前的对象识别数据集中于（a）图像分类，（b）对象包围盒定位或（c）语义像素级分割，我们着重于（d）分割单个对象实例。我们介绍了一个大的，丰富注释的数据集，由图像描绘复杂的日常场景中常见的对象在他们的自然环境。

为了创建完成这三个目标的大型数据集，我们采用了一种新的管道来收集数据，并广泛使用亚马逊机械土耳其人。第一和最重要的是，我们收获了一大套含上下文关系和noniconic对象视图图像。我们使用一种令人惊讶的简单而有效的技术来完成这一技术，即通过基于场景的查询[ 17 ]，[ 3 ]检索与对象检索的对象对。接下来，使用分层标记方法将每个图像标记为包含特定的对象类别（18）。对于所发现的每个类别，对单个实例进行标记、验证和最后分割。考虑到标签固有的模糊性，每一个阶段都有详细的权衡。
语境中的微软普通物体（mscoco）数据集包含了91种常见的对象类别，82的人有5000多个标记的情况下，图6。总的来说，数据集在328000个图像中有2500000个标记实例。在流行的ImageNet数据集[ 1 ]，可可有较少的类别但每类的实例。这有助于学习精确的二维精确定位的对象模型。该数据集在每个类别的实例中的数量也明显大于Pascal VOC [ 2 ]和Sun（3）数据集。另外，我们的数据集和其他数据之间的一个重要区别是每个图像的标记实例数量，这可能有助于学习上下文信息，图5。MS可可含有相当多的对象实例的图像（7.7）相比，ImageNet（3）和Pascal（2.3）。相反，Sun数据集包含重要的上下文信息，每个对象有超过17个对象和“填充”，但整体对象实例更少。
这篇文章的删节版本出现在[ 19 ]。

2相关工作

纵观计算机视觉的历史，研究数据集起到了至关重要的作用。它们不仅提供了训练和评估算法的手段，而且推动了新的、更具挑战性的方向的研究。地面实况立体声和光流数据集的创建[ 20 ]，[ 21 ]有助于激发人们对这些领域的兴趣。对象识别数据集（22），[ 23 ]，[ 24 ]的早期演化促进了数百种图像识别算法的直接比较，同时推动了这个领域向更复杂的问题发展。最近，在ImageNet数据集[ 1 ]含有数以百万计的图像使突破对象的分类和使用一种新的深度学习算法[ 5 ]类检测研究，[ 6 ]，[ 7 ]。
与对象识别相关的数据集大致可分为三类：主要处理对象分类、对象检测和语义场景标记。我们依次处理每个问题。
图像分类：对象分类的任务需要二进制标签，指示对象是否存在于图像中；参见图1（a）。这种类型的组成包含一个空白背景的单个对象的图像的早期数据，如MNIST手写体数字[ 25 ]或线圈家用物品[ 26 ]。加州理工学院101（22）和加州理工学院256 [ 23 ]标志着从Internet获取的更现实的对象图像的过渡，同时将对象类别的数量分别增加到101和256。在机器学习领域由于其样本数较大的流行的数据集，cifar-10和cifar-100 [ 27 ]提供10和100从一个数据集的32个×32图像[ 28类]。虽然这些数据集包含多达60000个图像和数百个类别，但它们只占我们视觉世界的一小部分。最近，ImageNet [ 1 ]从数据集大小的增加做出了一个惊人的离去。他们提议建立一个数据集包含22k类500-1000个形象。不同于以往的数据集包含了入门级类[ 29 ]，如“狗”或“椅子”一样，[ 28 ]，ImageNet使用的WordNet层次[ 30 ]来获得入门级的细粒度[ 31 ]类别。目前，在ImageNet数据集包含超过1400万个标记图像，使显着的进步，在图像分类中的[ 5 ]、[ 6 ]、[ 7 ]。
检测对象需要同时声明属于指定类的对象，并将其定位到图像中。一个对象的位置通常由一个包围盒来表示，图1（b）。早期的算法侧重于使用各种特设数据集进行人脸检测[ 32 ]。后来，创建了更具现实性和挑战性的人脸检测数据集[ 33 ]。另一个受人欢迎的挑战是检测行人，其中已经创建了几个数据集[ 24 ]，[ 4 ]。加州理工学院的行人数据集[ 4 ]包含350000个带边框的标记实例。
为基本对象类的检测，从2005到2012的多年努力致力于一系列被广泛采用的基准数据集的创建和维护。Pascal VOC [ 2 ]数据集包含20个对象类别，分布在11000个图像上。超过27000个对象实例包围盒被标记，其中几乎7000个有详细的分割。最近，一个检测的挑战已经创建了200类对象使用ImageNet [ 34 ] 400000图像的子集。令人印象深刻的350000个对象已经使用包围盒标记。
由于检测到许多物体，如太阳镜、手机或椅子，高度依赖于上下文信息，因此检测数据集包含自然环境中的对象是很重要的。在我们的数据集中，我们努力收集上下文信息丰富的图像。包围盒的使用也限制了对检测算法进行评估的准确性。我们建议使用完全分段的实例，以实现更精确的检测器评估。

语义场景标记：在场景中标记语义对象的任务要求图像的每个像素被标记为属于一个类别，如天空、椅子、地板、街道等。与检测任务相反，对象的单个实例不需要被分割，图1（c）。这使得对单个实例难以定义的对象进行标记，如草、街道或墙壁。室内[ 11 ]和室外[ 35 ]，[ 14 ]场景都有数据集。一些数据集还包括深度信息[ 11 ]。类似于语义场景标记，我们的目标是测量对象标签的像素级精度。然而，我们的目标是区分对象的单个实例，这需要对每个对象的范围有一个坚实的理解。
一个结合了许多的目标检测与场景的语义标记的数据集的性质的新的数据集的场景understanding.sun太阳集[ 3 ]包含908个场景类别从WordNet词典[ 30 ]与分割对象。3819个对象类别跨越了对象检测数据集（人、椅子、汽车）和语义场景标记（墙、天空、地板）的共同点。由于数据集是通过找到描述各种场景类型的图像来收集的，所以每个对象类别的实例数量都表现出长尾现象。也就是说，一些类别有大量的实例（墙：20213，窗口：16080，椅子：7971），而大多数有相对较少的实例（船：349，飞机：179，落地灯：276）。在我们的数据集中，我们确保每个对象类别都有大量实例，如图5所示。
其他视觉数据集也推动了计算机视觉领域的发展。一些著名的数据集，包括立体视觉[ 20 ]米德尔伯里数据集，多视点立体[ 36 ]和[ 21 ]光流动。伯克利分割数据集（bsds500）[ 37 ]已经被广泛的用来评估分割和边缘检测算法。还创建了数据集来识别场景[ 9 ]和对象属性[ 8 ]，[ 38 ]。事实上，许多有远见的领域受益于有助于促进进展的具有挑战性的数据集。

3图像采集

接下来，我们将描述对象类别和候选图像是如何被选择的。

3.1个常见对象类别

对象类别的选择是一项不平凡的练习，分类必须形成一个具有代表性的所有类别集合，与实际应用相关，并以足够高的频率发生，以便收集大型数据集。其他重要的决定是是否包括“物”和“物”类[ 39 ]，以及细粒度[ 31 ]、[ 1 ]和对象部分分类是否应该包括在内。“物”范畴包括个体实例容易被标记的对象（人、椅子、汽车），其中“材料”类别包括没有明确界限的物质和物体（天空、街道、草地）。由于我们主要对对象实例的精确定位感兴趣，所以我们决定只包含“事物”类别而不是“物质”。然而，由于“类”类可以提供重要的上下文信息，所以我们相信将来对“类”类的标记将是有益的。
对象类别的特殊性可以显著变化。例如，一只狗可以是“哺乳动物”、“狗”或“德国牧羊犬”的成员。为了实际收集每个类别的大量实例，我们选择将数据集限制为入门级类别，即人类描述对象时常用的类别标签（狗、椅子、人）。也有可能某些对象类别可能是其他对象类别的一部分。例如，一张脸可能是一个人的一部分。我们预计对象部分类别（面孔、手、轮子）的加入对许多实际应用都是有益的。
我们使用了几种源来收集“事物”的入门级对象类别，我们首先合并了一个类别列表，这些类别包括来自PASCAL VOC（2）的类别和1200个最常用的表示视觉可识别对象的单词的子集（40）。为了进一步扩大我们的候选类别，一些年龄在4岁到8岁之间的儿童被要求说出他们在室内和室外环境中看到的每一个物体，最后272个候选人可以在附录中找到。最后，共同作者对每一个类别进行了1到5的投票，考虑到它们的普遍性、实际应用的有效性以及它们相对于其他类别的多样性。类试图接类高票最终的选择，同时保持每supercategory类别数量（动物、车辆、家具等）的平衡。获取大量实例（大于5000）是困难的类别也被删除。为了确保向后兼容性，所有来自Pascal VOC（2）的类别也包括在内。我们的91个建议类别的最后列表在图5（a）中。

图3：我们的标注管道分为3个主要任务：（一）标记的类别的图像（x4.1），（b）定位和标记的标记类的所有实例（x4.2），和（c）将每个对象实例（x4.3）。

3.2非标志性图像采集

给定对象类别的列表，我们的下一个目标是收集一组候选图像。我们大致可以将图像分成三种类型，图2：标志性对象图像[ 41 ]，标志性场景图像[ 3 ]和非标志性图像。典型的标志性对象图像在图像中以标准透视图中有一个大的对象，图2（a）。典型的场景图像是从规范的视点拍摄的，通常缺少人，图2（b）。图标图像的好处是，他们可以很容易找到直接搜索特定类别使用谷歌或Bing图像搜索。虽然标志性图像通常提供高质量的对象实例，但它们缺乏重要的上下文信息和非规范观点。
我们的目标是收集数据集，使得大多数图像都是非标志性的，如图2（c）所示。已经证明，包含更多非标志性图像的数据集在概括[ 42 ]方面更好。我们使用两种策略收集非标志性图像。首先，我们已经收集了来自Flickr的图片，因为这些图片的图标较少。Flickr包含业余摄影师上传的带有可搜索元数据和关键字的照片。第二，我们没有孤立地搜索对象类别。对“狗”的搜索将倾向于恢复大型犬的形象。然而，如果我们搜索对象类别的成对组合，如“狗+汽车”，我们发现了更多的非标志性图像。令人惊讶的是，这些图像通常不只是包含搜索中指定的两个类别，还有许多其他类别。为了进一步补充我们的数据集，我们还搜索了场景/对象类别对，见附录。我们下载了最多5张照片，由一个摄影师在短时间内拍摄。在无法找到足够图像的少数情况下，我们搜索单个类别，并执行显式筛选阶段，以去除标志性图像。其结果是收集了328000个图像，对象之间有丰富的上下文关系，如图所示。2（c）和6。

4图像标注

下面我们将介绍如何注释我们的图像集合。由于我们希望标注超过250万个对象实例，所以设计一个成本效率高但质量高的注释管道是至关重要的。注释管道如图3所示。对于所有的众包任务，我们使用了亚马逊的机械Turk（AMT）的工人。我们的用户界面在附录中有详细的描述，请注意，由于这项工作的原始版本[ 19 ]，我们已经采取了一些步骤来进一步提高注释的质量。特别是，我们增加注解数为类别标记和实例识别阶段八。我们还增加了一个验证实例分割的阶段。

4.1类标签

注释我们的数据集的第一个任务是确定每个图像中存在哪些对象类别，图3（a）。由于我们有91个类别和大量的图像，要求工人回答每个图像的91个二进制分类问题将是昂贵的昂贵。相反，我们使用了分层方法[ 18 ]。

图4：类别标记任务的工人精度和召回率。（a）多个AMT工人（蓝色）的工会比任何专家（红色）都有更好的记忆力。用专家多数票计算地面实况。（b）显示每个精度/召回范围内的工人（圆周尺寸）和每个工人的平均工作数（圆圈色）。大多数工人都有很高的精度，这样的工人一般也能完成更多的工作。对于这一阴谋，每一个工人的事实都是所有其他工人的回应。看到x4.4详情。

我们将对象类别分成11个超级类别（见附录）。对于给定的映像，依次向每个组呈现一个工人，并要求指出是否存在该超级类别的任何实例。这大大减少了对不同类别进行分类所需的时间。例如，一个工人可以很容易地确定没有动物是在图像，而不必专门找猫，狗，等等。如果一个工人从超类确定实例（动物）的存在，为每个下属范畴（狗，猫，等），工人必须拖动类别的图标上图像类别的一个实例。这些图标的放置对于接下来的阶段至关重要。我们强调，只有每一个类别的一个实例需要在此阶段进行注释。为了确保高召回率，8名工人被要求对每个图像进行标签。一个类别被认为存在，如果任何工人指示的类别；假阳性处理在随后的阶段。在x4.4性能分析。这个阶段花了∼20k工人小时完成。

4.2例检出

在下一个阶段，图像中对象类别的所有实例都被标记，图3（b）。在前一阶段，每个工作人员标记一个类别的实例，但可能存在多个对象实例。因此，对于每一个图像，一个工作者被要求在前一个阶段发现的特定类别的每个实例上放置一个十字。为了提高召回率，前面一个工作人员发现的实例的位置显示给当前的工人。这种启动帮助工人在第一次看到图像时很快找到一个初始实例。工人们还可以用放大镜找到小的例子。每个工人被要求在每一个图像的给定类别中最多标注10个实例。每个图像标记的8个工人总共∼10k工人小时。

4.3实例分割

我们的最后一个阶段是分割每个对象实例的艰巨任务，图3（c）。在这个阶段，我们修改了贝尔等人开发的优秀用户界面。[ 16 ]用于图像分割。我们的接口要求工作人员在前一个阶段对一个工人指定的对象实例进行分段。如果其他实例已经在图像中被分割，则将这些分割显示给该工作人员。一个工作者也可以指出图像中给定类别的对象实例（暗示上一阶段的假阳性标签），或者所有对象实例都已经被分割。
分割2500000个对象实例是一项非常耗时的任务，每1000个分区需要超过22个工作小时。为了最小化成本，每个实例只有一个工作段。然而，当第一次完成任务时，大多数工作者只生成粗略的实例概要。因此，我们要求所有的工作人员完成每个对象类别的培训任务。培训任务要求工人划分一个对象实例。除非他们的分工与事实相符，否则工人不能完成任务。培训任务的使用大大提高了工人的质量（大约1在3工人通过培训阶段）和由此产生的分割。示例分割可以在图6中查看。
虽然培训任务过滤掉了大多数坏员工，但我们还对每个分段实例进行了明确的验证步骤，以确保良好的质量。多工（3至5）被要求判断每个分割和表明它是否匹配的实例不好。质量不足的细分是丢弃和相应的实例添加到不分节的对象池。最后，一些被认可的工人总是产生不好的分割；这些工人获得的所有工作都被丢弃了。

对于包含10个对象实例或给定类别较少的图像，每个实例都是单独分割的（注意在一些图像中最多有15个实例被分割）。偶尔的实例的数量急剧上升；例如，考虑一个密集的人群一车香蕉。在这种情况下，同一类别的许多实例可以紧密地组合在一起，区分单个实例是困难的。后一类10-15实例是在图像分割，其余实例标记为“人群”中使用一个单一的（可能是多个）段。为了评估的目的，标记为人群的区域将被忽略，而不会影响探测器的得分。附录中给出了详细信息。

4.4诠释绩效分析

我们通过与专业的专家比较，分析了类别标签任务中的人群工作质量，见图4（a）。我们比较了七名专家工作者（论文的合著者）的精确性和召回率，以及将一至十名AMT工人联合起来的结果。用专家多数票计算地面实况。对于这项任务，召回是最重要的，因为假阳性可以在以后的阶段中删除。图4（a）表明，8名AMT工人的工会与我们收集的商标数量相同，比任何专家工作者都有更大的召回率。注意工人回忆饱和在9-10 AMT的工人。
对象类别的存在通常是不明确的。确实如图4（a）表示，即使是敬业的专家往往不同意对对象的存在，由于固有的模糊性在图像或分歧范畴的定义。任何明确的例子，有一个概率在50%的概率都被注释，注解者失踪8这种情况最多：58≈：004。此外，通过观察召回增加我们添加注解，我们估计在实践上所有对象类别不迟的误报检测了8家拒绝99%。值得注意的是，类似的分析可以做的事情，比如在这8家进行。
最后，图4（b）重新检查AMT工人在一组更大的图像上的类别标记的精度和召回率。每个精度（召回范围）显示工人（圆周尺寸）和每个工人的平均工作数（圆圈颜色）。与图4（a）不同的是，我们使用了一个离开评估过程，其中一个类别被认为是存在的，如果剩下的任何一个工人被命名为类别的话。因此，总体工人的精度要高得多。完成大部分工作的工人也有最高的精度；工人在黑线以下的所有工作都被拒绝了。

4.5标题注释

我们给可可小姐的每个图片添加了五个文字说明。将在一个单独的出版物中提供对标题统计数据的完整描述以及它们如何被收集。

5数据统计

接下来，我们比较了几种流行的数据集，分析了上下文上下文中微软通用对象的属性。这些包括ImageNet [ 1 ]，PASCAL VOC 2012 [ 2 ]、[ 3 ]和太阳。这些数据集在大小、标记类别和图像类型上都有很大差别。ImageNet可以捕获大量的对象类，其中有许多是细粒度。Sun着重于对场景类型和通常出现的对象进行标记。最后，PASCAL VOC的主要应用是自然图像中的物体检测。科科是专为在自然环境中发生的物体进行检测和分割而设计的。
图5（a）示出了所有91个类别中每个类别的实例数。图5（d）显示了对象类别数量和每个类别实例数量的数据集的摘要。而唐小姐有类比ImageNet和孙少，它有更多的情况下，我们假设将每类学习复杂的模型能够精确的定位是有用的。在PASCAL VOC比较，MS所克有更多种类的实例。

我们的数据集的一个重要特性是，我们努力在自然环境中找到包含对象的非标志性图像。通过检查每个图像的对象类别和实例的平均数目，图5（b，c）可以估计图像中存在的上下文信息量。ImageNet我们小区的目标检测验证集，由于训练数据中只有一个对象标记。平均而言，我们的数据集包含3.5个类别和每个图像的7.7个实例。在比较ImageNet和PASCAL VOC都小于2类，对每幅图像的平均3的实例。另一个有趣的观察，只有10%的图像，每个图像的唐小姐，一个类只在比较中，超过60%的图像包含在ImageNet和PASCAL VOC单对象类别。正如预期的那样，Sun数据集具有最上下文信息，因为它是基于场景的，并且使用了一组不受限制的类别。
最后，我们分析了数据集中对象的平均大小。通常较小的对象更难识别，需要更多的上下文推理来识别。如图5（e）所示，对于可可女士和Sun，对象的平均大小都较小。

6数据集分割

为了适应更快的发布时间表，我们将MS数据集分成两个大致相等的部分。数据集的前半部分在2014发布，下半年将在2015发布。2014版本包含82783个训练，40504个验证和40775个测试图像（大约12个列车，1个4千字节和14个测试）。有近270k分割人和共886k分割对象实例在2014火车+ VAL数据单。累积的2015版本将包含总共165482个列车，81208个瓦尔和81434个测试图像。

图5：（a）可可女士和帕斯卡尔VOC每个类别的注释实例数量。（B，C）的注释类型和注释的情况下，分别数图像的唐小姐，ImageNet检测，PASCAL VOC和太阳（类和实例的平均数显示在括号中）。（d）若干流行的对象识别数据集的类别数目与每个类别的实例数。（E）为唐小姐，ImageNet检测实例大小的分布，太阳和PASCAL VOC数据集。

我们注意到，通过清晰地删除近重复（用[ 43 ]检测）和由摄影师拍摄的图像和拍摄日期，以尽量减少重复存在的重复图像。

按照既定协议，列车和验证数据的注释将被发布，但不用于测试。我们目前正在最后确定测试服务器上的自动评测服务器。评估服务器完成后，将添加对评估指标的全面讨论。

注意，我们已经将2014版本限制为80个类别的子集。我们没有收集11个类别的分割：帽子，鞋子，眼镜（太多的例子），镜子，窗户，门，街道标志（模棱两可和难以标示），盘子，书桌（由于混淆碗和餐桌，分别）和搅拌器，毛刷（太少的实例）。我们可以在累积2015版本中为这些类别添加一些分段。

图6：samples of Images in the mscoco带注释的数据集。

7算法分析

包围盒检测用于以下实验以55000幅图像的子集从我们的数据集1和注释分割面具获得紧身包围盒。我们评估了可可和帕斯卡尔两个模型的测试结果，见表1。我们评估两种不同的模型。dpmv5-p：[ 44 ]的最新实施（版本5 [ 45 ]）训练的PASCAL VOC 2012.dpmv5-c：相同的实现训练可可（5000正10000负的图像）。我们使用默认参数设置来培训可可模型。如果我们比较PASCAL VOC和唐小姐的dpmv5-p平均的表现，我们发现平均性能对唐小姐下降近2倍，这表明唐小姐不包括更多的困难（非经典），被部分遮挡，在杂乱的物体影像，等我们通知唐小姐的模型训练在性能类似的下降（dpmv5-c）。在PASCAL VOC或MS可可训练检测性能的影响可以通过比较dpmv5-p和dpmv5-c.他们使用相同的实现具有不同的训练数据的来源分析。表1显示dpmv5-c仍然优于dpmv5-p 6出的20类测试时，在PASCAL VOC。在某些类别（如狗、猫、人）中，对可可女士培训的模型表现较差，而在其他人（如公共汽车、电视、马）上，对我们的数据进行训练的模型更好。与过去的观察[ 46 ]相一致，我们发现在训练过程中包括困难的（非标志性的）图像可能并不总是有帮助。如果模型不够丰富，无法捕捉到这种外观变异性，这样的例子可能会起到噪声和污染学习模型的作用。我们的数据集允许探索此类问题。Torralba和二维[ 42 ]提出了一种衡量跨数据综合计算模型，一个数据集上测试另一列车的性能下降。dpmv5-p模型的两个数据集之间的性能差异是12.7 AP而dpmv5-c模型只有7.7个AP的差异。此外，可可女士的整体表现要低得多。这些观察结果支持了两个假设：（1）科科比PASCAL VOC更为困难，2）在MS MS上训练的模型可以更好地概括更容易的数据集，如PASCAL VOC，给出更多的训练数据。为了深入了解数据集之间的差异，请参见两个数据集的个人和椅子示例的可视化附录。
从检测产生分割，我们现在描述一个简单的方法来生成对象包围盒和分割掩模，在先前的工作中产生从对象检测到的分割[ 47 ]，[ 48 ]，[ 49 ]，[ 50 ]。我们学习针对不同类别的面向方面的像素级分割掩码。这些方法很容易通过将对齐掩码与对齐的训练实例平均化来学习。我们学习不同的面具对应于不同的混合物在我们的DPM检测器。示例掩码在图7中被可视化。基于分割分割的检测是一项具有挑战性的任务，即使假设检测器报告正确的结果，也需要对目标部分进行精细定位。

基于分割分割的检测是一项具有挑战性的任务，即使假设检测器报告正确的结果，因为它需要对对象部分边界进行精细定位。为了将分割评价与检测正确性分离，我们只使用正确的检测来划分分割质量。具体地说，鉴于检测器报告正确的包围盒，该对象的预测分割与地面真相分割的匹配程度如何？至于正确的检测标准，我们的标准强加的要求，交上联盟之间的预测和真实的盒子至少0:5。然后，我们测量了预测和地面真相分割掩码的交集，见图8。为了为数据集建立基线，我们在图像上学习了DPM部分掩码以创建分段掩码。图9显示了在20个PASCAL分类中学习的DPM的分割基线的结果，并在我们的数据集上进行了测试。

8讨论

我们引入了一个新的数据集，用于检测和分割日常生活中在自然环境中发现的物体。利用超过70000个工作小时，收集了大量的对象实例，注释和组织，以推动对象检测和分割算法的进步。重点放在在自然环境和各种观点中寻找非标志性的物体图像。数据集统计表明，图像包含了丰富的上下文信息，每个图像呈现多个对象。
对我们的数据集未来的注释有几个有希望的方向。我们目前只标注“东西”，但标记“东西”也可能提供重要的上下文信息，可能对检测有用。
多目标检测算法受益于额外的注释，如量的实例是闭塞的[ 4 ]或[ 10点在对象上的位置]。最后，我们的数据集可以为其他类型的标签提供良好的基准，包括场景类型[ 3 ]、属性[ 9 ]、[ 8 ]和完整的句子描述[ 51 ]。我们正在积极探索添加各种这样的注释。下载并学习更多关于唐小姐请参见项目网站2。可可女士会随着时间的推移而进化和成长，最新的信息可以在线获得。
确认所有工人的任务是人群的资金由微软提供。PP和D.R.被一n00014-10-1-0933木里给予支持。我们要感谢所有社区成员在定义和收集数据集的过程中提供了有价值的反馈。

附录概述

在附录中，我们提供了AMT用户界面的详细描述和272个候选类别的完整列表（从中选出我们最后的91个）和40个场景类别（用于场景对象查询）。

附录一：用户界面

我们描述和可视化我们的用户界面收集非标志性图像，类别标签，实例发现，实例分割，分割验证，最后人群标签。非标志性图像采集Flickr提供了与文本标题相关联的丰富图像集合。然而，字幕可能是不准确的，图像可能是标志性的。为了构建一组高质量的非标志性图像，我们首先通过搜索对象类别对，或对对象和场景类别来收集候选图像，然后我们创建了一个AMT过滤任务，允许用户从128个候选网格中删除无效或标志性图像，如图10所示。我们发现指令的选择是至关重要的，因此为用户提供了图标和非标志性图像的例子。有些类别很少与他人发生合作。在这种情况下，我们只使用对象类作为搜索项来收集候选对象，但应用类似的筛选步骤，如图10（b）所示。
类别标记图12（a）显示了类别标签的接口。我们设计了标记任务，鼓励工人对图像中的所有类别进行注释。通过将底部类别面板中的图标拖放到相应的对象实例上，工作人员对类别进行注释。每个对象类别只有一个实例需要在图像中进行注释。我们将图标从图11中的超级类别中分组，允许工人快速跳过不太可能出现的类别。

实例发现图12（b）描述了我们对给定类别的所有实例进行标记的接口。该接口用一个闪烁的图标初始化，该图标指定从上一个类别标记阶段获得的单个实例。然后要求工人点击并点击最多10个给定类别的总实例，在每个实例的区域内放置一个十字。为了发现小物体，我们发现至关重要的是包括一个“放大镜”功能，使工人当前选定区域的分辨率加倍。
实例分割图12（c）显示了我们的用户界面实例分割。我们修改源代码的opensurfaces项目[ 16 ]，它定义了真实场景中的同质材料的多区域分割一个单一的AMT任务。在我们的例子中，我们定义了一个单独的任务，用于分割从上一个注释阶段标记的单个对象实例。为了帮助分割过程，我们添加了一个对象类别图标的可视化，提醒工人要分类的类别。关键的是，我们还增加了放大功能，以便对小对象和曲线边界进行有效注释。在前一个注释阶段，为了确保对所有对象实例的高覆盖率，我们使用了多个工作人员对每个图像的实例进行标记。我们希望对所有这样的对象实例进行分段，但是不同的工作者之间的实例注释可以引用不同的或冗余的实例。为了解决这种通信歧义，我们顺序地发布AMT分割任务，忽略现有的分割掩码所覆盖的实例注释。分段验证图12（d）显示了用于分割验证的用户界面。由于前一个任务的耗时性，每个对象实例只被分割一次。因此，验证阶段的目的是确保从前一阶段的每个分段实例具有足够高的质量。工人被显示为64个分割网格，并要求选择质量差的分割。64个分割中的四个被认为是不好的；一个工人必须识别4个已知的坏分割中的3个来完成任务。每个分割初步证明3注解。如果有任何的注解说明分割是坏的，它表明2个额外的工人。在这一点上，任何分割，不接受至少4 5票赞成被丢弃和相应的实例添加到不分节的对象池。如图15所示，通过（4/5票）或被否决（3/5票）的临界情况的例子。人群标记图12（e）显示了我们的人群标签的用户界面。正如所讨论的，对于包含十个对象实例或给定类别较少的图像，每个对象实例都是单独分割的。然而，在某些图像中，给定类别的实例数量要高得多。在这种情况下，人群标记提供了一种更有效的注释方法。我们不允许工人在每个对象实例上画出精确的多边形掩码，而是允许工人“绘制”属于问题类别的所有像素。人群标记类似于语义分割，因为对象实例不是单独标识的。我们强调，人群标记只适用于包含给定类别十多个对象实例的图像。

附录二：对象和场景类别

我们的数据集包含91个对象类别（2014个版本包含80个类别的分割掩码）。我们开始频繁的对象类别列表从WordNet，LabelMe，太阳和其他来源以及来自幼儿自由回忆实验类。作者然后投票产生的272类不同的采样和计算具有挑战性的组类别的目的；看到X3的细节。表2中的列表以票数递减的顺序列举了这272类。正如所讨论的，91类的最终选择试图选择高票数的类别，同时保持每个超级类别（动物、车辆、家具等）类别的平衡。所讨论的X3，除了使用对象查询收集非标志性的形象，也证明了有效的查询对象的场景。对于这个任务，我们从太阳数据集中选择了40个场景类别的子集，它们经常与感兴趣的对象类别相关联。表3列举了40个场景类别（在室内和室外场景之间平均分割）。

REFERENCES
[1] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “ImageNet: A Large-Scale Hierarchical Image Database,” in CVPR,
2009.
[2] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The PASCAL visual object classes (VOC) challenge,”
IJCV, vol. 88, no. 2, pp. 303–338, Jun. 2010.
[3] J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, and A. Torralba, “SUN
database: Large-scale scene recognition from abbey to zoo,” in
CVPR, 2010.
[4] P. Dollar, C. Wojek, B. Schiele, and P. Perona, “Pedestrian detec- ´
tion: An evaluation of the state of the art,” PAMI, vol. 34, 2012.
[5] A. Krizhevsky, I. Sutskever, and G. Hinton, “ImageNet classification with deep convolutional neural networks,” in NIPS, 2012.
[6] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature
hierarchies for accurate object detection and semantic segmentation,” in CVPR, 2014.
[7] P. Sermanet, D. Eigen, S. Zhang, M. Mathieu, R. Fergus, and
Y. LeCun, “OverFeat: Integrated recognition, localization and
detection using convolutional networks,” in ICLR, April 2014.
[8] A. Farhadi, I. Endres, D. Hoiem, and D. Forsyth, “Describing
objects by their attributes,” in CVPR, 2009.
[9] G. Patterson and J. Hays, “SUN attribute database: Discovering,
annotating, and recognizing scene attributes,” in CVPR, 2012.
[10] L. Bourdev and J. Malik, “Poselets: Body part detectors trained
using 3D human pose annotations,” in ICCV, 2009.
[11] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from RGBD images,” in ECCV,
2012.
[12] S. Palmer, E. Rosch, and P. Chase, “Canonical perspective and the
perception of objects,” Attention and performance IX, vol. 1, p. 4,
1981.
[13] . Hoiem, D, Y. Chodpathumwan, and Q. Dai, “Diagnosing error
in object detectors,” in ECCV, 2012.
[14] G. Brostow, J. Fauqueur, and R. Cipolla, “Semantic object classes
in video: A high-definition ground truth database,” PRL, vol. 30,
no. 2, pp. 88–97, 2009.
[15] B. Russell, A. Torralba, K. Murphy, and W. Freeman, “LabelMe: a
database and web-based tool for image annotation,” IJCV, vol. 77,
no. 1-3, pp. 157–173, 2008.
[16] S. Bell, P. Upchurch, N. Snavely, and K. Bala, “OpenSurfaces:
A richly annotated catalog of surface appearance,” SIGGRAPH,
vol. 32, no. 4, 2013.
[17] V. Ordonez, G. Kulkarni, and T. Berg, “Im2text: Describing images
using 1 million captioned photographs.” in NIPS, 2011.
[18] J. Deng, O. Russakovsky, J. Krause, M. Bernstein, A. Berg, and
L. Fei-Fei, “Scalable multi-label annotation,” in CHI, 2014.
[19] T. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan,
P. Dollar, and C. L. Zitnick, “Microsoft COCO: Common objects ´
in context,” in ECCV, 2014.
[20] D. Scharstein and R. Szeliski, “A taxonomy and evaluation of
dense two-frame stereo correspondence algorithms,” IJCV, vol. 47,
no. 1-3, pp. 7–42, 2002.
[21] S. Baker, D. Scharstein, J. Lewis, S. Roth, M. Black, and R. Szeliski,
“A database and evaluation methodology for optical flow,” IJCV,
vol. 92, no. 1, pp. 1–31, 2011.
[22] L. Fei-Fei, R. Fergus, and P. Perona, “Learning generative visual
models from few training examples: An incremental bayesian
approach tested on 101 object categories,” in CVPR Workshop of
Generative Model Based Vision (WGMBV), 2004.
[23] G. Griffin, A. Holub, and P. Perona, “Caltech-256 object category
dataset,” California Institute of Technology, Tech. Rep. 7694, 2007.
[24] N. Dalal and B. Triggs, “Histograms of oriented gradients for
human detection,” in CVPR, 2005.
[25] Y. Lecun and C. Cortes, “The MNIST database of handwritten
digits,” 1998. [Online]. Available: http://yann.lecun.com/exdb/
mnist/
[26] S. A. Nene, S. K. Nayar, and H. Murase, “Columbia object image
library (coil-20),” Columbia Universty, Tech. Rep., 1996.
[27] A. Krizhevsky and G. Hinton, “Learning multiple layers of features from tiny images,” Computer Science Department, University
of Toronto, Tech. Rep, 2009.
[28] A. Torralba, R. Fergus, and W. T. Freeman, “80 million tiny
images: A large data set for nonparametric object and scene
recognition,” PAMI, vol. 30, no. 11, pp. 1958–1970, 2008.
[29] V. Ordonez, J. Deng, Y. Choi, A. Berg, and T. Berg, “From large
scale image categorization to entry-level categories,” in ICCV,
2013.
[30] C. Fellbaum, WordNet: An electronic lexical database. Blackwell
Books, 1998.
[31] P. Welinder, S. Branson, T. Mita, C. Wah, F. Schroff, S. Belongie,
and P. Perona, “Caltech-UCSD Birds 200,” Caltech, Tech. Rep.
CNS-TR-201, 2010.
[32] E. Hjelmas and B. Low, “Face detection: A survey,” ˚ CVIU, vol. 83,
no. 3, pp. 236–274, 2001.
[33] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miller, “Labeled
faces in the wild,” University of Massachusetts, Amherst, Tech.
Rep. 07-49, October 2007.
[34] O. Russakovsky, J. Deng, Z. Huang, A. Berg, and L. Fei-Fei,
“Detecting avocados to zucchinis: what have we done, and where
are we going?” in ICCV, 2013.
[35] J. Shotton, J. Winn, C. Rother, and A. Criminisi, “TextonBoost
for image understanding: Multi-class object recognition and segmentation by jointly modeling texture, layout, and context,” IJCV,
vol. 81, no. 1, pp. 2–23, 2009.
[36] S. M. Seitz, B. Curless, J. Diebel, D. Scharstein, and R. Szeliski, “A
comparison and evaluation of multi-view stereo reconstruction
algorithms,” in CVPR, 2006.
[37] P. Arbelaez, M. Maire, C. Fowlkes, and J. Malik, “Contour detection and hierarchical image segmentation,” PAMI, vol. 33, no. 5,
pp. 898–916, 2011.
[38] C. Lampert, H. Nickisch, and S. Harmeling, “Learning to detect
unseen object classes by between-class attribute transfer,” in
CVPR, 2009.
[39] G. Heitz and D. Koller, “Learning spatial context: Using stuff to
find things,” in ECCV, 2008.
[40] R. Sitton, Spelling Sourcebook. Egger Publishing, 1996.
[41] T. Berg and A. Berg, “Finding iconic images,” in CVPR, 2009.
[42] A. Torralba and A. Efros, “Unbiased look at dataset bias,” in
CVPR, 2011.
[43] M. Douze, H. Jegou, H. Sandhawalia, L. Amsaleg, and C. Schmid, ´
“Evaluation of gist descriptors for web-scale image search,” in
CIVR, 2009.
[44] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan,
“Object detection with discriminatively trained part-based models,” PAMI, vol. 32, no. 9, pp. 1627–1645, 2010.
[45] R. Girshick, P. Felzenszwalb, and D. McAllester, “Discriminatively
trained deformable part models, release 5,” PAMI, 2012.
[46] X. Zhu, C. Vondrick, D. Ramanan, and C. Fowlkes, “Do we need
more training data or better models for object detection?” in
BMVC, 2012.
[47] T. Brox, L. Bourdev, S. Maji, and J. Malik, “Object segmentation
by alignment of poselet activations to image contours,” in CVPR,
2011.
[48] Y. Yang, S. Hallman, D. Ramanan, and C. Fowlkes, “Layered
object models for image segmentation,” PAMI, vol. 34, no. 9, pp.
1731–1743, 2012.
[49] D. Ramanan, “Using segmentation to verify object hypotheses,”
in CVPR, 2007.
[50] Q. Dai and D. Hoiem, “Learning to localize detected objects,” in
CVPR, 2012.
[51] C. Rashtchian, P. Young, M. Hodosh, and J. Hockenmaier, “Collecting image annotations using Amazon’s Mechanical Turk,” in NAACL Workshop, 2010.