超细节的对比学习和SimCSE知识点

作者：娜是相当滴好4 | 来源：互联网 | 2023-09-05 13:26

2020年的Moco和SimCLR等，掀起了对比学习在CV领域的热潮，2021年的SimCSE，则让NLP也乘上了对比学习的东风。下面就尝试用QA的形式挖掘其中一些细节知识点，去更

2020年的Moco和SimCLR等，掀起了对比学习在CV领域的热潮，2021年的SimCSE，则让NLP也乘上了对比学习的东风。下面就尝试用QA的形式挖掘其中一些细节知识点，去更好的理解对比学习和SimCSE。

1、如何去理解对比学习，它和度量学习的差别是什么？
2、对比学习中一般选择一个batch中的所有其他样本作为负例，那如果负例中有很相似的样本怎么办？
3、infoNCE loss 如何去理解，和CE loss有什么区别？
4、对比学习的infoNCE loss 中的温度常数的作用是什么？
5、SimCSE中的dropout mask 指的是什么，dropout rate的大小影响的是什么？
6、SimCSE无监督模式下的具体实现流程是怎样的，标签生成和loss计算如何实现？

1、如何去理解对比学习，它和度量学习的差别是什么？

对比学习的思想是去拉近相似的样本，推开不相似的样本，而目标是要从样本中学习到一个好的语义表示空间。

论文[1]给出的 “Alignment and Uniformity on the Hypersphere”，就是一个非常好的去理解对比学习的角度。

在这里插入图片描述

好的对比学习系统应该具备两个属性：Alignment和Uniformity（参考上图）。

所谓“Alignment”，指的是相似的例子，也就是正例，映射到单位超球面后，应该有接近的特征，也即是说，在超球面上距离比较近；

所谓“Uniformity”，指的是系统应该倾向在特征里保留尽可能多的信息，这等价于使得映射到单位超球面的特征，尽可能均匀地分布在球面上，分布得越均匀，意味着保留的信息越充分。分布均匀意味着两两有差异，也意味着各自保有独有信息，这代表信息保留充分。（参考自[2]）

度量学习和对比学习的思想是一样的，都是去拉近相似的样本，推开不相似的样本

但是对比学习是无监督或者自监督学习方法，而度量学习一般为有监督学习方法

而且对比学习在loss设计时，为单正例多负例的形式，因为是无监督，数据是充足的，也就可以找到无穷的负例，但如何构造有效正例才是重点

而度量学习多为二元组或三元组的形式，如常见的Triplet形式（anchor，positive，negative），Hard Negative的挖掘对最终效果有较大的影响

2、对比学习中一般选择一个batch中的所有其他样本作为负例，那如果负例中有很相似的样本怎么办？

在无监督无标注的情况下，这样的伪负例，其实是不可避免的，首先可以想到的方式是去扩大语料库，去加大batch size，以降低batch训练中采样到伪负例的概率，减少它的影响。

另外，神经网络是有一定容错能力的，像伪标签方法就是一个很好的印证，但前提是错误标签数据或伪负例占较小的比例。

PS：也确有人考虑研究过这个问题，可以参考论文[3][4]

3、infoNCE loss 如何去理解，和CE loss有什么区别？

infoNCE loss 全称 info Noise Contrastive Estimation loss，对于一个batch中的样本i，它的loss为：

L

i

=

−

log

⁡

(

e

S

(

z

i

,

z

i

+

)

/

τ

/

∑

j

=

0

K

e

S

(

z

i

,

z

j

)

/

τ

)

{L_i} = - \log ({e^{S({z_i},z_i^ + )/\tau }}/\sum\nolimits_{j = 0}^K {{e^{S({z_i},{z_j})/\tau }}} )

Li=−log(eS(zi,zi+)/τ/∑j=0KeS(zi,zj)/τ)
要注意的是，log里面的分母叠加项是包括了分子项的

分子是正例对的相似度，分母是正例对+所有负例对的相似度，最小化infoNCE loss，就是去最大化分子的同时最小化分母，也就是最大化正例对的相似度，最小化负例对的相似度

上面公式直接看可能没那么清晰，可以把负号放进去，分子分母倒过来化简一下就会很明了了

CE loss，Cross Entropy loss，在输入p是softmax的输出时：

L

=

−

∑

j

=

0

K

y

i

log

⁡

(

e

z

i

/

∑

j

=

0

K

e

z

j

)

L = - \sum\nolimits_{j = 0}^K {{y_i}\log ({e^{{z_i}}}/\sum\nolimits_{j = 0}^K {{{\mathop{\rm e}\nolimits} ^{{z_j}}}} )}

L=−∑j=0Kyilog(ezi/∑j=0Kezj)
在分类场景下，真实标签y一般为one-hot的形式，因此，CE loss可以简化成（i 位置对应标签1）：

L

=

−

log

⁡

(

e

z

i

/

∑

j

=

0

K

e

z

j

)

L = - \log ({e^{{z_i}}}/\sum\nolimits_{j = 0}^K {{{\mathop{\rm e}\nolimits} ^{{z_j}}}} )

L=−log(ezi/∑j=0Kezj)
看的出来，info NCE loss和在一定条件下简化后的CE loss是非常相似的

但有一个区别要注意的是：

infoNCE loss中的 K 是batch的大小，是可变的，是第 i 个样本要和batch中的每个样本计算相似度，而batch里的每一个样本都会如此计算，因此上面公式只是样本 i 的loss

CE loss中的 K 是分类类别数的大小，任务确定时是不变的，i 位置对应标签为1的位置

不过实际上，infoNCE loss 就是直接可以用CE loss 去计算的

注：1）info NCE loss 不同的实现方式下，它的计算方式和K 的含义可能会有差异；2）info NCE loss是基于 NCE loss 的，对公式推导感兴趣的可以参考[5]

4、对比学习的infoNCE loss 中的温度常数t的作用是什么？

论文[6]给出了非常细致的分析，知乎博客[7]则对论文[6]做了细致的解读，这里摘录它的要点部分：

温度系数的作用是调节对困难样本的关注程度：越小的温度系数越关注于将本样本和最相似的困难样本分开，去得到更均匀的表示。然而困难样本往往是与本样本相似程度较高的，很多困难负样本其实是潜在的正样本，过分强迫与困难样本分开会破坏学到的潜在语义结构，因此，温度系数不能过小
考虑两个极端情况，温度系数趋向于0时，对比损失退化为只关注最困难的负样本的损失函数；当温度系数趋向于无穷大时，对比损失对所有负样本都一视同仁，失去了困难样本关注的特性。

还有一个角度：

可以把不同的负样本想像成同极点电荷在不同距离处的受力情况，距离越近的点电荷受到的库伦斥力更大，而距离越远的点电荷受到的斥力越小。
对比损失中，越近的负例受到的斥力越大，具体的表现就是对应的负梯度值越大[4]。这种性质更有利于形成在超球面均匀分布的特征。

对照着公式去理解：

L

i

=

−

log

⁡

(

e

S

(

z

i

,

z

i

+

)

/

τ

/

∑

j

=

0

K

e

S

(

z

i

,

z

j

)

/

τ

)

{L_i} = - \log ({e^{S({z_i},z_i^ + )/\tau }}/\sum\nolimits_{j = 0}^K {{e^{S({z_i},{z_j})/\tau }}} )

Li=−log(eS(zi,zi+)/τ/∑j=0KeS(zi,zj)/τ)
当温度系数很小时，越相似也即越困难的负例，对应的

S

(

z

i

,

z

j

)

/

τ

{S({z_i},{z_j})/\tau }

S(zi,zj)/τ就会越大，在分母叠加项中所占的比重就会越大，对整体loss的影响就会越大，具体的表现就是对应的负梯度值越大[7]

当然，这仅仅是提供了一种定性的认识，定量的认识和推导可以参见博客[7]

5、SimCSE中的dropout mask 指的是什么，dropout rate的大小影响的是什么？

一般而言的mask是对token级别的mask，比如说BERT MLM中的mask，batch训练时对padding位的mask等。

SimCSE中的dropout mask，对于BERT模型本身，是一种网络模型的随机，是对网络参数W的mask，起到防止过拟合的作用。

而SimCSE巧妙的把它作为了一种noise，起到数据增强的作用，因为同一句话，经过带dropout的模型两次，得到的句向量是不一样的，但是因为是相同的句子输入，最后句向量的语义期望是相同的，因此作为正例对，让模型去拉近它们之间的距离。

在实现上，因为一个batch中的任意两个样本，经历的dropout mask都是不一样的，因此，一个句子过两次dropout，SimCSE源码中实际上是在一个batch中实现的，即[a,a,b,b…]作为一个batch去输入

dropout rate大小的影响，可以理解为，这个概率会对应有dropout的句向量相对无dropout句向量，在整个单位超球体中偏移的程度，因为BERT是多层的结构，每一层都会有dropout，这些noise的累积，会让句向量在每个维度上都会有偏移的，只是p较小的情况下，两个向量在空间中仍较为接近，如论文所说，“keeps a steady alignment”，保证了一个稳定的对齐性。

6、SimCSE无监督模式下的具体实现流程是怎样的，标签生成和loss计算如何实现？

这里用一个简单的例子和Pytorch代码来说明：

前向句子embedding计算：

假设初始输入一个句子集sents = [a,b]，每一句要过两次BERT，因此复制成 sents = [a,a,b,b]

sents 以batch的形式过BERT等语言模型得到句向量：batch_emb = [a1,a2,b1,b2]

batch 标签生成：

标签为1 的地方是相同句子不同embedding对应的位置

	a1	a2	b1	b2
a1	0	1	0	0
a2	1	0	0	0
b1	0	0	0	1
b2	0	0	1	0

pytorch中的CE_loss，要使用一维的数字标签，上面的one-hot标签可转换成：[1,0,3,2]

可以把label拆成两个部分：奇数部分[1,3…]和偶数部分[0,2…]，交替的每个奇数在偶数前面。因此实际生成的时候，可以分别生成两个部分再concat并reshape成一维

pytorch中label的生成代码如下：

# 构造标签 batch_size = batch_emb.size(0) y_true = torch.cat([torch.arange(1,batch_size,step=2,dtype=torch.long).unsqueeze(1), torch.arange(0,batch_size,step=2,dtype=torch.long).unsqueeze(1)], dim=1).reshape([batch_size,])

score和loss计算：

batch_emb 会先norm，再计算任意两个向量之间的点积，得到向量间的余弦相似度，维度是：[batch_size, batch_size]

但是对角线的位置，也就是自身的余弦相似度，需要mask掉，因为它肯定是1，是不产生loss的

然后，要除以温度系数，再进行loss的计算，loss_func 采用CE loss，注意CE loss中是自带softmax计算的

# 计算score和loss norm_emb = F.normalize(batch_emb, dim=1, p=2) sim_score = torch.matmul(norm_emb, norm_emb.transpose(0,1)) sim_score = sim_score - torch.eye(batch_size) * 1e12 sim_score = sim_score * 20 # 温度系数为 0.05，也就是乘以20 loss = loss_func(sim_score, y_true)

完整代码：

loss_func = nn.CrossEntropyLoss() def simcse_loss(batch_emb): """用于无监督SimCSE训练的loss """ # 构造标签 batch_size = batch_emb.size(0) y_true = torch.cat([torch.arange(1, batch_size, step=2, dtype=torch.long).unsqueeze(1), torch.arange(0, batch_size, step=2, dtype=torch.long).unsqueeze(1)], dim=1).reshape([batch_size,]) # 计算score和loss norm_emb = F.normalize(batch_emb, dim=1, p=2) sim_score = torch.matmul(norm_emb, norm_emb.transpose(0,1)) sim_score = sim_score - torch.eye(batch_size) * 1e12 sim_score = sim_score * 20 loss = loss_func(sim_score, y_true) return loss

注：看过论文源码[8]的同学可能会发现，这个和论文源码中的实现方式不一样，论文源码是为了兼容无监督SimCSE和有监督SimCSE，并兼容有hard negative的三句输入设计的，因此实现上有差异。

看过苏神源码[9]的同学也会发现，构造标签的地方不一样，那是因为keras的CE loss用的是one-hot标签，pytorch用的是数字标签，但本质一样。

参考：

[1]、Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

[2]、https://zhuanlan.zhihu.com/p/367290573

[3]、Debiased Contrastive Learning

[4]、ADACLR: Adaptive Contrastive Learning Of Representation By Nearest Positive Expansion

[5]、https://zhuanlan.zhihu.com/p/334772391

[6]、Understanding the Behaviour of Contrastive Loss

[7]、https://zhuanlan.zhihu.com/p/357071960

[8]、https://github.com/princeton-nlp/SimCSE

[9]、https://github.com/bojone/SimCSE

推荐阅读

select
深入解析 Kubernetes 亲和性调度机制及其优化策略

在 Kubernetes 中，Pod 的调度通常由集群的自动调度策略决定，这些策略主要关注资源充足性和负载均衡。然而，在某些场景下，用户可能需要更精细地控制 Pod 的调度行为，例如将特定的服务（如 GitLab）部署到特定节点上，以提高性能或满足特定需求。本文深入解析了 Kubernetes 的亲和性调度机制，并探讨了多种优化策略，帮助用户实现更高效、更灵活的资源管理。 ... [详细]

蜡笔小新 2024-11-05 17:27:07
select
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
select
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
match
SSL 错误：目标主机名与备用证书主题名称不匹配

在使用 `git clone` 命令时，常见的 SSL 错误表现为：无法访问指定的 HTTPS 地址（如 `https://ip_or_domain/xxxx.git`），原因是目标主机名与备用证书主题名称不匹配。这通常是因为服务器的 SSL 证书配置不正确或客户端的证书验证设置有问题。建议检查服务器的 SSL 证书配置，确保其包含正确的主机名，并确认客户端的证书信任库已更新。此外，可以通过临时禁用 SSL 验证来排查问题，但请注意这会降低安全性。 ... [详细]

蜡笔小新 2024-11-07 22:49:18
match
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
select
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
uri
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
select
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
char
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
match
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
c语言
【源自百度知识】批处理技术详解与应用

本文详细介绍了批处理技术的基本概念及其在实际应用中的重要性。首先，对简单的批处理内部命令进行了概述，重点讲解了Echo命令的功能，包括如何打开或关闭回显功能以及显示消息。如果没有指定任何参数，Echo命令会显示当前的回显设置。此外，文章还探讨了批处理技术在自动化任务执行、系统管理等领域的广泛应用，为读者提供了丰富的实践案例和技术指导。 ... [详细]

蜡笔小新 2024-11-09 10:19:25
select
如何在C#中配置组合框的背景颜色？

如何在C#中配置组合框的背景颜色？ ... [详细]

蜡笔小新 2024-11-08 13:06:59
less
[label][IDE] Building Node.js Applications Using WebStorm

WebStorm 是一款强大的集成开发环境，支持多种现代 Web 开发技术，包括 Node.js、CoffeeScript、TypeScript、Dart、Jade、Sass、LESS 和 Stylus。它为开发者提供了丰富的功能和工具，帮助高效构建和调试复杂的 Node.js 应用程序。 ... [详细]

蜡笔小新 2024-11-07 19:58:31
less
微信获取用户数据：隐私与安全的考量

微信平台通过盛派SDK（sdk.weixin.senparc.com）允许服务号和订阅号使用appId和token读取关注用户的个人信息。然而，这一过程需严格遵守隐私保护和数据安全的相关规定，确保用户数据的安全性和隐私性。 ... [详细]

蜡笔小新 2024-11-06 15:16:05
bit
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42

娜是相当滴好4

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章