热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

论文阅读笔记《LowShotLearningwithImprintedWeights》

小样本学习&元学习经典论文整理||持续更新核心思想本文提出一种基于特征提取线性分类器的小样本学习算法(imprinting)。首先作者提出一个观点&#

小样本学习&元学习经典论文整理||持续更新


核心思想

  本文提出一种基于特征提取+线性分类器的小样本学习算法(imprinting)。首先作者提出一个观点,他说其实许多基于特征提取+线性分类器的小样本分类算法和基于度量学习(特征提取+最近邻分类器)的算法在本质上是一样的,如下式所示
在这里插入图片描述
式中xxx表示样本特征,p(x)p(x)p(x)表示样本xxx对应的类别表征,我们最小化二者之间的距离(基于度量学习),就相当于最大化二者之间的内积(基于特征提取+线性分类器)。既然如此,作者认为就不需要再通过SGD的方式来训练线性分类器的权重了,我们直接用训练样本得到的特征向量来作为该类别对应的权重就可以了。在分类时只需要计算输入样本的特征向量与各个类别对应权重向量之间的内积,再利用softmax函数计算分类概率即可。算法的实现方式如下图所示
在这里插入图片描述
  整个网络包含两个部分:特征提取器和分类器。输入图像xxx经过深层卷积神经网络后得到对应的特征向量ϕ(x)\phi(x)ϕ(x),然后再利用L2规范化层,将其统一到单位长度。在大规模数据集上做预训练的过程中,每个类别的样本对应的特征向量ϕ(x)\phi(x)ϕ(x),都被作为该类别的权重向量wiw_iwi储存到权重矩阵WWW中,如果一个类别有多个样本,那么就取特征向量的平均值作为该类别对应的权重向量。在小样本数据集做微调训练时,新的类别对应的特征向量被作为权重向量,继续添加到权重矩阵W+W_+W+中,作者称这个过程叫做Imprinting。
  测试时只需要计算测试样本对应的特征向量ϕ(x)\phi(x)ϕ(x)和每个权重向量wiw_iwi之间的余弦相似性,因为余弦相似性被归一化到[−1,1][-1, 1][1,1]之间了,所以如果类别种类多,直接做softmax,得到的概率会很低,无法得到独热向量。为了解决这个问题,作者增加了一个放缩系数sss,则分类概率的计算方式如下
在这里插入图片描述

实现过程


网络结构

  特征提取网络采用InceptionV1结构

创新点


  • 提出一种Imprinting的小样本分类方法,利用样本的特征向量直接作为分类器中的权重向量
  • 增加了规范化层和放缩系数

算法评价

  第一次看这篇文章时,我认为这不就是基于外部记忆的方法吗?将每个类别的表征向量保存到矩阵中,分类时再去计算测试样本与各个表征向量之间的相似性。但其实本文中的权重矩阵WWW和基于外部记忆算法中的记忆矩阵MMM还是有一定区别的,记忆矩阵MMM中向量的更新是按照一定的规则,根据样本的特征向量来更新的,而本文中的权重矩阵WWW是通过SGD的方式来更新的,也就是说权重矩阵WWW还是属于模型内部的一部分,而不是一个独立的外部模块。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述


推荐阅读
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 非计算机专业的朋友如何拿下多个Offer
    大家好,我是归辰。秋招结束后,我已顺利入职,并应公子龙的邀请,分享一些秋招面试的心得体会,希望能帮助到学弟学妹们,让他们在未来的面试中更加顺利。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • 浅层神经网络解析:本文详细探讨了两层神经网络(即一个输入层、一个隐藏层和一个输出层)的结构与工作原理。通过吴恩达教授的课程,读者将深入了解浅层神经网络的基本概念、参数初始化方法以及前向传播和反向传播的具体实现步骤。此外,文章还介绍了如何利用这些基础知识解决实际问题,并提供了丰富的实例和代码示例。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 理工科男女不容错过的神奇资源网站
    十一长假即将结束,你的假期学习计划进展如何?无论你是在家中、思念家乡,还是身处异国他乡,理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档,能够帮助你在假期中高效学习和提升专业技能。 ... [详细]
  • 超分辨率技术的全球研究进展与应用现状综述
    本文综述了图像超分辨率(Super-Resolution, SR)技术在全球范围内的最新研究进展及其应用现状。超分辨率技术旨在从单幅或多幅低分辨率(Low-Resolution, LR)图像中恢复出高质量的高分辨率(High-Resolution, HR)图像。该技术在遥感、医疗成像、视频处理等多个领域展现出广泛的应用前景。文章详细分析了当前主流的超分辨率算法,包括基于传统方法和深度学习的方法,并探讨了其在实际应用中的优缺点及未来发展方向。 ... [详细]
  • 在Python编程中,掌握高级技巧对于提升代码效率和可读性至关重要。本文重点探讨了生成器和迭代器的应用,这两种工具不仅能够优化内存使用,还能简化复杂数据处理流程。生成器通过按需生成数据,避免了大量数据加载对内存的占用,而迭代器则提供了一种优雅的方式来遍历集合对象。此外,文章还深入解析了这些高级特性的实际应用场景,帮助读者更好地理解和运用这些技术。 ... [详细]
  • 目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]
  • 高端存储技术演进与趋势
    本文探讨了高端存储技术的发展趋势,包括松耦合架构、虚拟化、高性能、高安全性和智能化等方面。同时,分析了全闪存阵列和中端存储集群对高端存储市场的冲击,以及高端存储在不同应用场景中的发展趋势。 ... [详细]
  • 双指针法在链表问题中应用广泛,能够高效解决多种经典问题,如合并两个有序链表、合并多个有序链表、查找倒数第k个节点等。本文将详细介绍这些应用场景及其解决方案。 ... [详细]
author-avatar
手机用户2502920971
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有