热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

深度神经网络自监督视觉特征综述

点上方人工智能算法与Python大数据获取更多干货在右上方设为星标★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于:

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★,第一时间获取资源

仅做学术分享,如有侵权,联系删除

转载于 :专知

自监督学习是关注的热点问题之一,来自TPAMI最新的综述论文《深度神经网络自监督视觉特征学习》对自监督视觉特征学习做了全面调研概述,值的关注!

c860053fe731fa85d0f178d52edd00c4.png

摘要:

为了在计算机视觉应用中学习得到更好的图像和视频特征,通常需要大规模的标记数据来训练深度神经网络。为了避免收集和标注大量的数据所需的巨大开销,作为无监督学习方法的一个子方法——自监督学习方法,可以在不使用任何人类标注的标签的情况下,从大规模无标记数据中学习图像和视频的一般性特征。本文对基于深度学习的自监督一般性视觉特征学习方法做了综述。首先,描述了该领域的动机和一些专业性术语。在此基础上,总结了常用的用于自监督学习的深度神经网络体系结构。接下来,回顾了自监督学习方法的模式和评价指标,并介绍了常用的图像和视频数据集以及现有的自监督视觉特征学习方法。最后,总结和讨论了基于标准数据集的性能比较方法在图像和视频特征学习中的应用。

https://ieeexplore.ieee.org/document/9086055

https://www.zhuanzhi.ai/paper/0e9852bb57c7fe00cc59723fc0ee899f

引言

由于深度神经网络具有学习不同层次一般视觉特征的强大能力,它已被作为基本结构应用于许多计算机视觉应用,如目标检测[1]、[2]、[3]、语义分割[4]、[5]、[6]、图像描述[7]等。从像ImageNet这样的大规模图像数据集训练出来的模型被广泛地用作预训练模型和用于其他任务的微调模型,主要有两个原因:(2)在大规模数据集上训练的网络已经学习了层次特征,有助于减少在训练其他任务时的过拟合问题;特别是当其他任务的数据集很小或者训练标签很少的时候。

深度卷积神经网络(ConvNets)的性能在很大程度上取决于其能力和训练数据量。为了增加网络模型的容量,人们开发了不同类型的网络架构,收集的数据集也越来越大。各种网络,包括AlexNet [9], VGG [10], GoogLeNet [11], ResNet [12], DenseNet[13]和大规模数据集,如ImageNet [14], OpenImage[15]已经被提出训练非常深的ConvNets。通过复杂的架构和大规模的数据集,ConvNets的性能在许多计算机视觉任务[1],[4],[7],[16],[17],[18]方面不断突破先进水平。

然而,大规模数据集的收集和标注是费时和昂贵的。ImageNet[14]是pre-training very deep 2D convolutional neural networks (2DConvNets)中应用最广泛的数据集之一,包含约130万张已标记的图像,覆盖1000个类,而每一幅图像由人工使用一个类标签进行标记。与图像数据集相比,视频数据集由于时间维度的原因,其采集和标注成本较高。Kinetics数据集[19]主要用于训练ConvNets进行视频人体动作识别,该数据集由50万个视频组成,共600个类别,每个视频时长约10秒。许多Amazon Turk工作人员花了大量时间来收集和注释如此大规模的数据集。 

为了避免费时和昂贵的数据标注,提出了许多自监督方法来学习大规模无标记图像或视频的视觉特征,而不需要任何人工标注。一种流行的解决方案是提出各种各样的前置任务让网络来解决,通过学习前置任务的目标函数来训练网络,通过这个过程来学习特征。人们提出了各种各样的自监督学习任务,包括灰度图像着色[20]、图像填充[21]、玩图像拼图[22]等。藉口任务有两个共同的特性:(1)图像或视频的视觉特征需要被ConvNets捕捉来解决前置任务;(2)监控信号是利用数据本身的结构(自我监控)产生的。 

自监督学习的一般流程如图1所示。在自监督训练阶段,为ConvNets设计预定义的前置任务,并根据数据的某些属性自动生成前置任务的伪标签。然后训练卷积神经网络学习任务的目标函数。当使用前置任务进行训练时,ConvNet的较浅的块集中于低级的一般特征,如角、边和纹理,而较深的块集中于高级任务特定的特征,如对象、场景和对象部分[23]。因此,通过藉由任务训练的ConvNets可以学习内核来捕获低级特征和高级特征,这对其他下游任务是有帮助的。在自监督训练结束后,学习到的视觉特征可以作为预训练的模型进一步转移到下游任务中(特别是在数据相对较少的情况下),以提高性能和克服过拟合。通常,在有监督的下游任务训练阶段,仅从前几层传递视觉特征。

0c643a6a7c410f5e6b81fc4855d6d8dd.png

自监督学习的前置任务可以分为四类:

(1)Generation-based Methods(基于生成的)

Image Generation(图像生成):图像着色、图像超分辨率(指由一幅低分辨率图像或图像序列恢复出高分辨率图像)、图像修复、用GANs生成图像

Video Generation(视频生成):利用GANs进行视频的生成及预测

(2)Context-based pretext tasks(基于上下文的)

Context Similarity(上下文相似度):根据图像补丁之间的上下文相似性设计前置任务,包括基于图像聚类的方法(image clustering-based methods)和基于图像约束的方法( graph constraint-based methods)。

Spatial Context Structure(空间上下文结构):基于图像补丁之间的空间关系,包括图像拼图(image jigsaw puzzle)、上下文预测(context prediction)、几何变换识别(geometric transformation recognition)。

Temporal Context Structure(时间上下文结构):来自视频的时间顺序用作监视信号。对ConvNet进行训练,以验证输入帧序列是否以正确的顺寻或识别帧序列的顺序。

(3)Free semantic label-based(基于自动生成语义标签的方法)

使用自动生成的语义标签来训练网络,标签是由传统的硬编码算法或游戏引擎生成的。包括运动对象分割(moving object segmentation)、轮廓检测(contour detection)、相对深度预测(relative depth prediction)。

(4)Cross modal-based(基于跨模态的方法)

这种前置任务训练ConvNet验证两个不同的输入数据通道是否彼此对应。包括视觉-音频对应验证(Visual-Audio Correspondence Verification)、RGB流对应验证(RGB-Flow Correspondence Verification)、自我感应(egomotion)。

205662de87bef9bd9ae3dbf074b8662f.png

c71135a10055902f2af29c22051e5094.png

---------♥---------

声明:本内容来源网络,版权属于原作者

图片来源网络,不代表本公众号立场。如有侵权,联系删除

AI博士私人微信,还有少量空位

a4e1bca7e6544b183078288efba5a0e7.png

0a28a891b40fe00159ac32c84adf18cc.gif

如何画出漂亮的深度学习模型图?

如何画出漂亮的神经网络图?

一文读懂深度学习中的各种卷积

点个在看支持一下吧a5487a787b7420683d0683b68f4585aa.png6fe2e2447174f84bd660387b9fef8408.png



推荐阅读
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]
  • 本文详细介绍了如何在现有的Android Studio项目中集成JNI(Java Native Interface),包括下载必要的NDK和构建工具,配置CMakeLists.txt文件,以及编写和调用JNI函数的具体步骤。 ... [详细]
  • 本文介绍如何在Windows Forms应用程序中使用C#实现DataGridView的多列排序功能,包括升序和降序排序。 ... [详细]
  • 本文详细介绍了如何在Android应用中使用GridView组件以网格形式展示数据(如文本和图像)。通过行列布局,实现类似矩阵的数据展示效果。 ... [详细]
  • 本文探讨了浏览器的同源策略限制及其对 AJAX 请求的影响,并详细介绍了如何在 Spring Boot 应用中优雅地处理跨域请求,特别是当请求包含自定义 Headers 时的解决方案。 ... [详细]
  • 利用Java与Tesseract-OCR实现数字识别
    本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能,旨在为开发者提供详细的指导和实践案例。 ... [详细]
  • 强人工智能时代,区块链的角色与前景
    随着强人工智能的崛起,区块链技术在新的技术生态中扮演着怎样的角色?本文探讨了区块链与强人工智能之间的互补关系及其在未来技术发展中的重要性。 ... [详细]
  • 本文详细介绍了 TensorFlow 的入门实践,特别是使用 MNIST 数据集进行数字识别的项目。文章首先解析了项目文件结构,并解释了各部分的作用,随后逐步讲解了如何通过 TensorFlow 实现基本的神经网络模型。 ... [详细]
  • 优雅实现 jQuery 折叠展开下拉菜单
    本文介绍了一种使用 jQuery 实现的优雅折叠和展开效果的下拉菜单,通过简单的 HTML 结构和 CSS 样式,结合 jQuery 脚本,可以轻松创建出美观且功能强大的下拉菜单。 ... [详细]
  • EasyMock实战指南
    本文介绍了如何使用EasyMock进行单元测试,特别是当测试对象的合作者依赖于外部资源或尚未实现时。通过具体的示例,展示了EasyMock在模拟对象行为方面的强大功能。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 图像分类算法的优化策略与实践
    本文探讨了《Bag of Tricks for Image Classification with Convolutional Neural Networks》论文中的多项技术,旨在通过具体实例和实验验证,提高卷积神经网络在图像分类任务中的性能。文章详细介绍了从模型训练加速、网络结构调整到训练参数优化等多个方面的改进方法。 ... [详细]
  • 京东AI创新之路:周伯文解析京东AI战略的独特之处
    2018年4月15日,京东在北京举办了人工智能创新峰会,会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果,还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]
  • TensorFlow 2.0 中的 Keras 数据归一化实践
    数据预处理是机器学习任务中的关键步骤,特别是在深度学习领域。通过将数据归一化至特定范围,可以在梯度下降过程中实现更快的收敛速度和更高的模型性能。本文探讨了如何使用 TensorFlow 2.0 和 Keras 进行有效的数据归一化。 ... [详细]
author-avatar
batman@zhou
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有