当前位置: 开发笔记 > 编程语言 > 正文

关于自监督学习、对比学习、聚类、度量学习和预训练的一些思考(在更新中…`)

作者：奔跑的饼干的饼干桶_698 | 来源：互联网 | 2023-09-16 10:41

先言：阅读数篇论文后，发觉自己基础不牢固，心生困惑无法解决，故再查阅整理相关内容发布于此。自监督的创新主要基于三个方面：1.基于代理任务的自监督学习三个阶段：Prediction-

先言：阅读数篇论文后，发觉自己基础不牢固，心生困惑无法解决，故再查阅整理相关内容发布于此。

自监督的创新主要基于三个方面：

1.基于代理任务的自监督学习

三个阶段：

Prediction-based Tasks：

基于预测的自监督学习任务属于视觉自监督学习中相对早期的工作。如patch relation prediction（预测图片中两个patch的相对位置），rotation prediction（判断图片旋转角度），color prediction（对灰色图片上色）

Contrastive-based Tasks：

如MoCo，simCLR等系列工作，通过对图片进行随机两种增强操作（裁剪，翻转等）构造正例对，拉近同一张图片不同形态的特征距离，拉远不同图片之间的特征距离。基于对比学习的方法虽然在ImageNet图片分类任务上取得不错的表现，但对于更细粒度的图片相关任务表现则欠佳，其更偏向于学习全局的图片语义特征。

Generative-based Tasks：

由于对比学习任务在细粒度知识表征学习方面存在缺陷，受NLP预训练模型的启发，近期很多工作将重点放在如何有效地将MLM任务迁移到CV自监督学习中。如mask region prediction, mask frame prediction等任务。

基于MLM任务引申的视觉自监督表征学习工作：
- MST: Masked Self-Supervised Transformer for Visual Representation
- BEiT: BERT Pre-Training of Image Transformers
- EsViT: Efficient Self-supervised Vision Transformers for Representation Learning
- iBOT: Image BERT Pre-training with Online Tokenizer
- Masked Autoencoders Are Scalable Vision Learners
- PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers
- Masked Feature Prediction for Self-Supervised Visual Pre-Training

2.基于对比学习的自监督学习

对比学习希望习得某个表示模型，它能够将图片映射到某个投影空间，并在这个空间内拉近正例的距离，推远负例距离。

如果从防止模型坍塌的不同方法角度，我们可大致把现有方法划分为四种：基于负例的对比学习方法、基于对比聚类的方法、基于不对称网络结构的方法，以及基于冗余消除损失函数的方法

基于负例的对比学习方法：

SimCLR系列及Moco系列；依靠负例(Uniformity属性)防止模型崩塌

基于对比聚类的方法：

SwAV;该方法要求某个投影点在超球面上，向另外一个投影点所属的聚类中心靠近，体现了Alignment原则;和其它聚类中心越远越好，这体现了Uniformity属性。SwAV面临模型坍塌问题，具体表现形式为：Batch内所有实例都聚类到同一个类里。所以为了防止模型坍塌，SwAV对聚类增加了约束条件，要求Batch内实例比较均匀地聚类到不同的类别中。本质上，它与直接采用负例的对比学习模型，在防止模型坍塌方面作用机制是类似的，是一种隐形的负例。

基于不对称网络结构的方法：

BYOL;只用正例来训练对比学习模型，靠上下分枝的结构不对称，防止模型坍塌。

基于冗余消除损失函数的方法：

Barlow Twins;既没有使用负例，也没有使用不对称结构，主要靠替换了一个新的损失函数，可称之为“冗余消除损失函数”，来防止模型坍塌。
对比学习Paper都会涉及到的一些关键点：
- 如何构造相似实例，以及不相似实例;
- 如何构造能够遵循上述指导原则的表示学习模型结构;
- 以及如何防止模型坍塌(Model Collapse);
评判对比学习的标准：

对比学习在做特征表示相似性计算时，要先对表示向量做L2正则，之后再做点积计算，或者直接采用Cosine相似性。
很多研究表明，把特征表示映射到单位超球面上，有很多好处。这里有两个关键，一个是单位长度，一个是超球面。首先，相比带有向量长度信息的点积，在去掉长度信息后的单位长度向量操作，能增加深度学习模型的训练稳定性。另外，当表示向量被映射到超球面上，如果模型的表示能力足够好，能够把相似的例子在超球面上聚集到较近区域，那么很容易使用线性分类器把某类和其它类区分开(参考上图)。在对比学习模型里，对学习到的表示向量进行L2正则，或者采用Cosine相似性，就等价于将表示向量投影到了单位超球面上进行相互比较。
Alignment和Uniformity：

Alignment：指的是相似的例子，也就是正例，映射到单位超球面后，应该有接近的特征，也即是说，在超球面上距离比较近
Uniformity：指的是系统应该倾向在特征里保留尽可能多的信息，这等价于使得映射到单位超球面的特征，尽可能均匀地分布在球面上，分布得越均匀，意味着保留的信息越充分。分布均匀意味着两两有差异，也意味着各自保有独有信息，这代表信息保留充分。

（这不就避免了模型崩塌的问题？）
模型坍塌(Collapse) ：

Uniformity特性的极端反例，是所有数据映射到单位超球面同一个点上，所有数据经过特征表示映射过程后，都收敛到了同一个常数解，一般将这种异常情况称为模型坍塌(Collapse)。
以SimCLR为例解释：

见Reference:2(很不错，强推！)

3.基于掩码学习的自监督学习

自监督与预训练的关系：

1. 2.常见的预训练方式分为生成式预训练与对比式预训练；

对比学习与聚类的关系：

声明：

本文中的所有参考内容均已在'Reference'中标注，仅供自己学习使用，如有侵权，立即删除。

Reference:

预训练中的自监督学习

对比学习（Contrastive Learning）在CV与NLP领域中的研究进展

2022-03-29 14:51:32 星期二

推荐阅读

php
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
php
全栈工程师在当今技术领域的角色与价值探析

当前，众多初创企业对全栈工程师的需求日益增长，但市场中却存在大量所谓的“伪全栈工程师”，尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值，澄清对这一角色的误解，并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]

蜡笔小新 2024-10-31 10:28:12
php
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
php
JUC（三）：深入解析AQS

本文详细介绍了Java并发工具包中的核心类AQS（AbstractQueuedSynchronizer），包括其基本概念、数据结构、源码分析及核心方法的实现。 ... [详细]

蜡笔小新 2024-11-13 15:40:34
php
使用 Python 封装依赖方法构建测试用例的依赖关系

本文介绍如何通过 Python 的 `unittest` 和 `functools` 模块封装一个依赖方法，用于管理测试用例之间的依赖关系。该方法能够确保在某个测试用例失败时，依赖于它的其他测试用例将被跳过。 ... [详细]

蜡笔小新 2024-11-13 10:42:38
php
Visual Studio 2022 功能扩展与更新指南

本文详细记录了如何在已安装的 Visual Studio 2022 中添加新的开发模块，特别是对于仅安装了 C 和 C++ 模块的用户，提供了详细的步骤和图解。 ... [详细]

蜡笔小新 2024-11-12 09:54:38
php
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
php
如何在C#中配置组合框的背景颜色？

如何在C#中配置组合框的背景颜色？ ... [详细]

蜡笔小新 2024-11-08 13:06:59
php
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03
php
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
format
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
format
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
format
英语面试技巧：提升个人技能与表现

在英语面试中，个人技能是指除专业知识外，能够促进职业发展的各种能力。虽然你可能具备多种技能，但建议重点突出与目标岗位最相关的几项，以增强面试官对你专业能力和适应性的认可。 ... [详细]

蜡笔小新 2024-11-04 11:22:06
format
如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解

如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]

蜡笔小新 2024-11-01 19:30:32
main
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53

奔跑的饼干的饼干桶_698

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章