纵观计算机视觉的历史,研究数据集起到了至关重要的作用。它们不仅提供了训练和评估算法的手段,而且推动了新的、更具挑战性的方向的研究。地面实况立体声和光流数据集的创建[ 20 ],[ 21 ]有助于激发人们对这些领域的兴趣。对象识别数据集(22),[ 23 ],[ 24 ]的早期演化促进了数百种图像识别算法的直接比较,同时推动了这个领域向更复杂的问题发展。最近,在ImageNet数据集[ 1 ]含有数以百万计的图像使突破对象的分类和使用一种新的深度学习算法[ 5 ]类检测研究,[ 6 ],[ 7 ]。
与对象识别相关的数据集大致可分为三类:主要处理对象分类、对象检测和语义场景标记。我们依次处理每个问题。
图像分类:对象分类的任务需要二进制标签,指示对象是否存在于图像中;参见图1(a)。这种类型的组成包含一个空白背景的单个对象的图像的早期数据,如MNIST手写体数字[ 25 ]或线圈家用物品[ 26 ]。加州理工学院101(22)和加州理工学院256 [ 23 ]标志着从Internet获取的更现实的对象图像的过渡,同时将对象类别的数量分别增加到101和256。在机器学习领域由于其样本数较大的流行的数据集,cifar-10和cifar-100 [ 27 ]提供10和100从一个数据集的32个×32图像[ 28类]。虽然这些数据集包含多达60000个图像和数百个类别,但它们只占我们视觉世界的一小部分。最近,ImageNet [ 1 ]从数据集大小的增加做出了一个惊人的离去。他们提议建立一个数据集包含22k类500-1000个形象。不同于以往的数据集包含了入门级类[ 29 ],如“狗”或“椅子”一样,[ 28 ],ImageNet使用的WordNet层次[ 30 ]来获得入门级的细粒度[ 31 ]类别。目前,在ImageNet数据集包含超过1400万个标记图像,使显着的进步,在图像分类中的[ 5 ]、[ 6 ]、[ 7 ]。
检测对象需要同时声明属于指定类的对象,并将其定位到图像中。一个对象的位置通常由一个包围盒来表示,图1(b)。早期的算法侧重于使用各种特设数据集进行人脸检测[ 32 ]。后来,创建了更具现实性和挑战性的人脸检测数据集[ 33 ]。另一个受人欢迎的挑战是检测行人,其中已经创建了几个数据集[ 24 ],[ 4 ]。加州理工学院的行人数据集[ 4 ]包含350000个带边框的标记实例。
为基本对象类的检测,从2005到2012的多年努力致力于一系列被广泛采用的基准数据集的创建和维护。Pascal VOC [ 2 ]数据集包含20个对象类别,分布在11000个图像上。超过27000个对象实例包围盒被标记,其中几乎7000个有详细的分割。最近,一个检测的挑战已经创建了200类对象使用ImageNet [ 34 ] 400000图像的子集。令人印象深刻的350000个对象已经使用包围盒标记。
由于检测到许多物体,如太阳镜、手机或椅子,高度依赖于上下文信息,因此检测数据集包含自然环境中的对象是很重要的。在我们的数据集中,我们努力收集上下文信息丰富的图像。包围盒的使用也限制了对检测算法进行评估的准确性。我们建议使用完全分段的实例,以实现更精确的检测器评估。
接下来,我们将描述对象类别和候选图像是如何被选择的。
对象类别的选择是一项不平凡的练习,分类必须形成一个具有代表性的所有类别集合,与实际应用相关,并以足够高的频率发生,以便收集大型数据集。其他重要的决定是是否包括“物”和“物”类[ 39 ],以及细粒度[ 31 ]、[ 1 ]和对象部分分类是否应该包括在内。“物”范畴包括个体实例容易被标记的对象(人、椅子、汽车),其中“材料”类别包括没有明确界限的物质和物体(天空、街道、草地)。由于我们主要对对象实例的精确定位感兴趣,所以我们决定只包含“事物”类别而不是“物质”。然而,由于“类”类可以提供重要的上下文信息,所以我们相信将来对“类”类的标记将是有益的。
对象类别的特殊性可以显著变化。例如,一只狗可以是“哺乳动物”、“狗”或“德国牧羊犬”的成员。为了实际收集每个类别的大量实例,我们选择将数据集限制为入门级类别,即人类描述对象时常用的类别标签(狗、椅子、人)。也有可能某些对象类别可能是其他对象类别的一部分。例如,一张脸可能是一个人的一部分。我们预计对象部分类别(面孔、手、轮子)的加入对许多实际应用都是有益的。
我们使用了几种源来收集“事物”的入门级对象类别,我们首先合并了一个类别列表,这些类别包括来自PASCAL VOC(2)的类别和1200个最常用的表示视觉可识别对象的单词的子集(40)。为了进一步扩大我们的候选类别,一些年龄在4岁到8岁之间的儿童被要求说出他们在室内和室外环境中看到的每一个物体,最后272个候选人可以在附录中找到。最后,共同作者对每一个类别进行了1到5的投票,考虑到它们的普遍性、实际应用的有效性以及它们相对于其他类别的多样性。类试图接类高票最终的选择,同时保持每supercategory类别数量(动物、车辆、家具等)的平衡。获取大量实例(大于5000)是困难的类别也被删除。为了确保向后兼容性,所有来自Pascal VOC(2)的类别也包括在内。我们的91个建议类别的最后列表在图5(a)中。
图3:我们的标注管道分为3个主要任务:(一)标记的类别的图像(x4.1),(b)定位和标记的标记类的所有实例(x4.2),和(c)将每个对象实例(x4.3)。
图4:类别标记任务的工人精度和召回率。(a)多个AMT工人(蓝色)的工会比任何专家(红色)都有更好的记忆力。用专家多数票计算地面实况。(b)显示每个精度/召回范围内的工人(圆周尺寸)和每个工人的平均工作数(圆圈色)。大多数工人都有很高的精度,这样的工人一般也能完成更多的工作。对于这一阴谋,每一个工人的事实都是所有其他工人的回应。看到x4.4详情。
我们将对象类别分成11个超级类别(见附录)。对于给定的映像,依次向每个组呈现一个工人,并要求指出是否存在该超级类别的任何实例。这大大减少了对不同类别进行分类所需的时间。例如,一个工人可以很容易地确定没有动物是在图像,而不必专门找猫,狗,等等。如果一个工人从超类确定实例(动物)的存在,为每个下属范畴(狗,猫,等),工人必须拖动类别的图标上图像类别的一个实例。这些图标的放置对于接下来的阶段至关重要。我们强调,只有每一个类别的一个实例需要在此阶段进行注释。为了确保高召回率,8名工人被要求对每个图像进行标签。一个类别被认为存在,如果任何工人指示的类别;假阳性处理在随后的阶段。在x4.4性能分析。这个阶段花了∼20k工人小时完成。
对于包含10个对象实例或给定类别较少的图像,每个实例都是单独分割的(注意在一些图像中最多有15个实例被分割)。偶尔的实例的数量急剧上升;例如,考虑一个密集的人群一车香蕉。在这种情况下,同一类别的许多实例可以紧密地组合在一起,区分单个实例是困难的。后一类10-15实例是在图像分割,其余实例标记为“人群”中使用一个单一的(可能是多个)段。为了评估的目的,标记为人群的区域将被忽略,而不会影响探测器的得分。附录中给出了详细信息。
图5:(a)可可女士和帕斯卡尔VOC每个类别的注释实例数量。(B,C)的注释类型和注释的情况下,分别数图像的唐小姐,ImageNet检测,PASCAL VOC和太阳(类和实例的平均数显示在括号中)。(d)若干流行的对象识别数据集的类别数目与每个类别的实例数。(E)为唐小姐,ImageNet检测实例大小的分布,太阳和PASCAL VOC数据集。
我们注意到,通过清晰地删除近重复(用[ 43 ]检测)和由摄影师拍摄的图像和拍摄日期,以尽量减少重复存在的重复图像。
按照既定协议,列车和验证数据的注释将被发布,但不用于测试。我们目前正在最后确定测试服务器上的自动评测服务器。评估服务器完成后,将添加对评估指标的全面讨论。
注意,我们已经将2014版本限制为80个类别的子集。我们没有收集11个类别的分割:帽子,鞋子,眼镜(太多的例子),镜子,窗户,门,街道标志(模棱两可和难以标示),盘子,书桌(由于混淆碗和餐桌,分别)和搅拌器,毛刷(太少的实例)。我们可以在累积2015版本中为这些类别添加一些分段。
图6:samples of Images in the mscoco带注释的数据集。
基于分割分割的检测是一项具有挑战性的任务,即使假设检测器报告正确的结果,因为它需要对对象部分边界进行精细定位。为了将分割评价与检测正确性分离,我们只使用正确的检测来划分分割质量。具体地说,鉴于检测器报告正确的包围盒,该对象的预测分割与地面真相分割的匹配程度如何?至于正确的检测标准,我们的标准强加的要求,交上联盟之间的预测和真实的盒子至少0:5。然后,我们测量了预测和地面真相分割掩码的交集,见图8。为了为数据集建立基线,我们在图像上学习了DPM部分掩码以创建分段掩码。图9显示了在20个PASCAL分类中学习的DPM的分割基线的结果,并在我们的数据集上进行了测试。
实例发现图12(b)描述了我们对给定类别的所有实例进行标记的接口。该接口用一个闪烁的图标初始化,该图标指定从上一个类别标记阶段获得的单个实例。然后要求工人点击并点击最多10个给定类别的总实例,在每个实例的区域内放置一个十字。为了发现小物体,我们发现至关重要的是包括一个“放大镜”功能,使工人当前选定区域的分辨率加倍。
实例分割图12(c)显示了我们的用户界面实例分割。我们修改源代码的opensurfaces项目[ 16 ],它定义了真实场景中的同质材料的多区域分割一个单一的AMT任务。在我们的例子中,我们定义了一个单独的任务,用于分割从上一个注释阶段标记的单个对象实例。为了帮助分割过程,我们添加了一个对象类别图标的可视化,提醒工人要分类的类别。关键的是,我们还增加了放大功能,以便对小对象和曲线边界进行有效注释。在前一个注释阶段,为了确保对所有对象实例的高覆盖率,我们使用了多个工作人员对每个图像的实例进行标记。我们希望对所有这样的对象实例进行分段,但是不同的工作者之间的实例注释可以引用不同的或冗余的实例。为了解决这种通信歧义,我们顺序地发布AMT分割任务,忽略现有的分割掩码所覆盖的实例注释。分段验证图12(d)显示了用于分割验证的用户界面。由于前一个任务的耗时性,每个对象实例只被分割一次。因此,验证阶段的目的是确保从前一阶段的每个分段实例具有足够高的质量。工人被显示为64个分割网格,并要求选择质量差的分割。64个分割中的四个被认为是不好的;一个工人必须识别4个已知的坏分割中的3个来完成任务。每个分割初步证明3注解。如果有任何的注解说明分割是坏的,它表明2个额外的工人。在这一点上,任何分割,不接受至少4 5票赞成被丢弃和相应的实例添加到不分节的对象池。如图15所示,通过(4/5票)或被否决(3/5票)的临界情况的例子。人群标记图12(e)显示了我们的人群标签的用户界面。正如所讨论的,对于包含十个对象实例或给定类别较少的图像,每个对象实例都是单独分割的。然而,在某些图像中,给定类别的实例数量要高得多。在这种情况下,人群标记提供了一种更有效的注释方法。我们不允许工人在每个对象实例上画出精确的多边形掩码,而是允许工人“绘制”属于问题类别的所有像素。人群标记类似于语义分割,因为对象实例不是单独标识的。我们强调,人群标记只适用于包含给定类别十多个对象实例的图像。
REFERENCES
[1] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “ImageNet: A Large-Scale Hierarchical Image Database,” in CVPR,
2009.
[2] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The PASCAL visual object classes (VOC) challenge,”
IJCV, vol. 88, no. 2, pp. 303–338, Jun. 2010.
[3] J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, and A. Torralba, “SUN
database: Large-scale scene recognition from abbey to zoo,” in
CVPR, 2010.
[4] P. Dollar, C. Wojek, B. Schiele, and P. Perona, “Pedestrian detec- ´
tion: An evaluation of the state of the art,” PAMI, vol. 34, 2012.
[5] A. Krizhevsky, I. Sutskever, and G. Hinton, “ImageNet classification with deep convolutional neural networks,” in NIPS, 2012.
[6] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature
hierarchies for accurate object detection and semantic segmentation,” in CVPR, 2014.
[7] P. Sermanet, D. Eigen, S. Zhang, M. Mathieu, R. Fergus, and
Y. LeCun, “OverFeat: Integrated recognition, localization and
detection using convolutional networks,” in ICLR, April 2014.
[8] A. Farhadi, I. Endres, D. Hoiem, and D. Forsyth, “Describing
objects by their attributes,” in CVPR, 2009.
[9] G. Patterson and J. Hays, “SUN attribute database: Discovering,
annotating, and recognizing scene attributes,” in CVPR, 2012.
[10] L. Bourdev and J. Malik, “Poselets: Body part detectors trained
using 3D human pose annotations,” in ICCV, 2009.
[11] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from RGBD images,” in ECCV,
2012.
[12] S. Palmer, E. Rosch, and P. Chase, “Canonical perspective and the
perception of objects,” Attention and performance IX, vol. 1, p. 4,
1981.
[13] . Hoiem, D, Y. Chodpathumwan, and Q. Dai, “Diagnosing error
in object detectors,” in ECCV, 2012.
[14] G. Brostow, J. Fauqueur, and R. Cipolla, “Semantic object classes
in video: A high-definition ground truth database,” PRL, vol. 30,
no. 2, pp. 88–97, 2009.
[15] B. Russell, A. Torralba, K. Murphy, and W. Freeman, “LabelMe: a
database and web-based tool for image annotation,” IJCV, vol. 77,
no. 1-3, pp. 157–173, 2008.
[16] S. Bell, P. Upchurch, N. Snavely, and K. Bala, “OpenSurfaces:
A richly annotated catalog of surface appearance,” SIGGRAPH,
vol. 32, no. 4, 2013.
[17] V. Ordonez, G. Kulkarni, and T. Berg, “Im2text: Describing images
using 1 million captioned photographs.” in NIPS, 2011.
[18] J. Deng, O. Russakovsky, J. Krause, M. Bernstein, A. Berg, and
L. Fei-Fei, “Scalable multi-label annotation,” in CHI, 2014.
[19] T. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan,
P. Dollar, and C. L. Zitnick, “Microsoft COCO: Common objects ´
in context,” in ECCV, 2014.
[20] D. Scharstein and R. Szeliski, “A taxonomy and evaluation of
dense two-frame stereo correspondence algorithms,” IJCV, vol. 47,
no. 1-3, pp. 7–42, 2002.
[21] S. Baker, D. Scharstein, J. Lewis, S. Roth, M. Black, and R. Szeliski,
“A database and evaluation methodology for optical flow,” IJCV,
vol. 92, no. 1, pp. 1–31, 2011.
[22] L. Fei-Fei, R. Fergus, and P. Perona, “Learning generative visual
models from few training examples: An incremental bayesian
approach tested on 101 object categories,” in CVPR Workshop of
Generative Model Based Vision (WGMBV), 2004.
[23] G. Griffin, A. Holub, and P. Perona, “Caltech-256 object category
dataset,” California Institute of Technology, Tech. Rep. 7694, 2007.
[24] N. Dalal and B. Triggs, “Histograms of oriented gradients for
human detection,” in CVPR, 2005.
[25] Y. Lecun and C. Cortes, “The MNIST database of handwritten
digits,” 1998. [Online]. Available: http://yann.lecun.com/exdb/
mnist/
[26] S. A. Nene, S. K. Nayar, and H. Murase, “Columbia object image
library (coil-20),” Columbia Universty, Tech. Rep., 1996.
[27] A. Krizhevsky and G. Hinton, “Learning multiple layers of features from tiny images,” Computer Science Department, University
of Toronto, Tech. Rep, 2009.
[28] A. Torralba, R. Fergus, and W. T. Freeman, “80 million tiny
images: A large data set for nonparametric object and scene
recognition,” PAMI, vol. 30, no. 11, pp. 1958–1970, 2008.
[29] V. Ordonez, J. Deng, Y. Choi, A. Berg, and T. Berg, “From large
scale image categorization to entry-level categories,” in ICCV,
2013.
[30] C. Fellbaum, WordNet: An electronic lexical database. Blackwell
Books, 1998.
[31] P. Welinder, S. Branson, T. Mita, C. Wah, F. Schroff, S. Belongie,
and P. Perona, “Caltech-UCSD Birds 200,” Caltech, Tech. Rep.
CNS-TR-201, 2010.
[32] E. Hjelmas and B. Low, “Face detection: A survey,” ˚ CVIU, vol. 83,
no. 3, pp. 236–274, 2001.
[33] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miller, “Labeled
faces in the wild,” University of Massachusetts, Amherst, Tech.
Rep. 07-49, October 2007.
[34] O. Russakovsky, J. Deng, Z. Huang, A. Berg, and L. Fei-Fei,
“Detecting avocados to zucchinis: what have we done, and where
are we going?” in ICCV, 2013.
[35] J. Shotton, J. Winn, C. Rother, and A. Criminisi, “TextonBoost
for image understanding: Multi-class object recognition and segmentation by jointly modeling texture, layout, and context,” IJCV,
vol. 81, no. 1, pp. 2–23, 2009.
[36] S. M. Seitz, B. Curless, J. Diebel, D. Scharstein, and R. Szeliski, “A
comparison and evaluation of multi-view stereo reconstruction
algorithms,” in CVPR, 2006.
[37] P. Arbelaez, M. Maire, C. Fowlkes, and J. Malik, “Contour detection and hierarchical image segmentation,” PAMI, vol. 33, no. 5,
pp. 898–916, 2011.
[38] C. Lampert, H. Nickisch, and S. Harmeling, “Learning to detect
unseen object classes by between-class attribute transfer,” in
CVPR, 2009.
[39] G. Heitz and D. Koller, “Learning spatial context: Using stuff to
find things,” in ECCV, 2008.
[40] R. Sitton, Spelling Sourcebook. Egger Publishing, 1996.
[41] T. Berg and A. Berg, “Finding iconic images,” in CVPR, 2009.
[42] A. Torralba and A. Efros, “Unbiased look at dataset bias,” in
CVPR, 2011.
[43] M. Douze, H. Jegou, H. Sandhawalia, L. Amsaleg, and C. Schmid, ´
“Evaluation of gist descriptors for web-scale image search,” in
CIVR, 2009.
[44] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan,
“Object detection with discriminatively trained part-based models,” PAMI, vol. 32, no. 9, pp. 1627–1645, 2010.
[45] R. Girshick, P. Felzenszwalb, and D. McAllester, “Discriminatively
trained deformable part models, release 5,” PAMI, 2012.
[46] X. Zhu, C. Vondrick, D. Ramanan, and C. Fowlkes, “Do we need
more training data or better models for object detection?” in
BMVC, 2012.
[47] T. Brox, L. Bourdev, S. Maji, and J. Malik, “Object segmentation
by alignment of poselet activations to image contours,” in CVPR,
2011.
[48] Y. Yang, S. Hallman, D. Ramanan, and C. Fowlkes, “Layered
object models for image segmentation,” PAMI, vol. 34, no. 9, pp.
1731–1743, 2012.
[49] D. Ramanan, “Using segmentation to verify object hypotheses,”
in CVPR, 2007.
[50] Q. Dai and D. Hoiem, “Learning to localize detected objects,” in
CVPR, 2012.
[51] C. Rashtchian, P. Young, M. Hodosh, and J. Hockenmaier, “Collecting image annotations using Amazon’s Mechanical Turk,” in NAACL Workshop, 2010.