当前位置: 开发笔记 > 编程语言 > 正文

BERT句向量(一)：SentenceBERT

作者：手机用户2502885633 | 来源：互联网 | 2023-08-28 09:46

前言句向量：能够表征整个句子语义的向量，目前效果比较好的方法还是通过bert模型结构来实现，也是本文的主题。有了句向量，

前言

句向量&＃xff1a;能够表征整个句子语义的向量&＃xff0c;目前效果比较好的方法还是通过bert模型结构来实现&＃xff0c;也是本文的主题。

有了句向量&＃xff0c;我们可以用来进行聚类&＃xff0c;处理大规模的文本相似度比较&＃xff0c;或者基于语义搜索的信息检索。

例如搜索系统中的输入query和匹配文档document、Q&A任务的问题和答案等等&＃xff0c;都可以转化为计算两个句子的语义相似/相关度&＃xff0c;相关度最高的n个作为模型的返回结果。

题外话

这种类似的模型一般称为passage retrieval models&＃xff0c;即段落检索&＃xff0c;有两个代表&＃xff1a;

sparse models&＃xff1a;BM25、TF-IDF等&＃xff1b;
dense models&＃xff08;DPR&＃xff0c;Dense Passage Retrieval&＃xff09;&＃xff1a;将query和doc&＃xff08;question和passage/answer&＃xff09;都转化为稠密向量&＃xff0c;然后通过faiss等工具进行相关召回。

原生Bert

原生的BERT模型在诸多句子分类和句子对的回归任务上都取得了state-of-the-art的表现&＃xff0c;它使用一种 cross-encoder的结构&＃xff1a;将两个句子拼接输入到模型&＃xff0c;经过带有self attention的transformer网络得到最终的预测值。

但这种做法不适用于大量句子对的回归任务&＃xff0c;例如给定10000个句子&＃xff0c;找出每个句子最相似的句子&＃xff0c;那么每个句子就得需要与其他所有句子进行两两组合&＃xff0c;才能得到与所有句子的相似度&＃xff0c;即需要进行n*(n-1)/2&＃61; 49995000次的推理计算&＃xff0c;这显然是不合理的。

这其实与推荐场景类似&＃xff0c;采用这种结构的话&＃xff0c;query需要与所有的doc进行分别计算&＃xff0c;才能分数相关度最高的doc&＃xff0c;这是不现实。所以这种做法一般是放在后面的排序阶段。

而在此之前&＃xff0c;一般会先经过召回阶段&＃xff0c;则是需要事先将所有doc输入到bert模型&＃xff0c;提取出句向量进行存储&＃xff0c;实际使用时&＃xff0c;实时计算query的句向量&＃xff0c;然后通过faiss等ann工具&＃xff0c;来从所有doc中召回相关度最高的n个。

因此&＃xff0c;sentence-bert此时就派上用场&＃xff0c;它使得bert模型能够提取表征句子语义的句向量。

Sentence-BERT

相关论文&＃xff1a;《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》

pooling strategies

其实原生bert模型本身是具备句向量提取的能力&＃xff0c;一般是以下3种方法&＃xff0c;sentence-bert也是采用相同的方法&＃xff1a;

CLS&＃xff1a;使用[CLS]字符最后一层的输出向量&＃xff0c;作为句向量&＃xff1b;
MEAN&＃xff1a;使用句子的所有字符的最后一层输出向量&＃xff0c;计算它们的均值&＃xff0c;作为句向量&＃xff1b;
MAX&＃xff1a;使用句子的所有字符的最后一层输出向量&＃xff0c;所有字符向量对应位置提取最大值&＃xff0c;作为句向量。

但是&＃xff0c;如果**直接使用原生bert模型来提取句向量&＃xff0c;效果十分不理想&＃xff0c;甚至不如GloVe提取的句向量。**

fine-tune

所以&＃xff0c;作者提出一种针对句向量&＃xff0c;对bert模型进行微调的方法&＃xff0c;包括无监督和监督训练。

请添加图片描述

fine-tune的三种结构&＃xff1a;

1. Classification Objective Function

如图1的分类结构&＃xff0c;句子A和句子B输入到同个bert模型&＃xff08;参数绑定&＃xff09;&＃xff0c;然后使用[CLS]向量或者所有字符的向量均值得到A的句向量u、B的句向量v&＃xff0c;然后拼接u、v和 element-wise的 |u-v|&＃xff0c;最后通过softmax做一个k分类&＃xff0c;loss为cross-entropy&＃xff1b;

请添加图片描述

2. Regression Objective Function

如图2的回归结构&＃xff0c;同样的方法得到u和v&＃xff0c; 再经过cosine函数得到u和v的相似度&＃xff0c;使用MSE&＃xff08; mean-squared-error&＃xff09;作为loss&＃xff1b;

3. Triplet Objective Function

最后一种为三元组结构&＃xff0c;如下式&＃xff0c;句子a和p为负例&＃xff0c;a和n为正例&＃xff0c; $s_a$ 为句子a的句向量&＃xff0c;方法同上。这个结构是让负例句子的距离要尽量比正例的大

请添加图片描述

其中|| · ||是距离度量&＃xff0c;例如欧式距离&＃xff0c;

$ξ\xi$ 为 margin &＃xff0c;控制负例和正例句子的距离差最小为 $ξ\xi$

inference

推理阶段&＃xff0c;按照上图2的做法&＃xff0c;两个句子u和v输入到Sentence-BERT结构微调后的模型&＃xff0c;选择一种pooling策略&＃xff0c;得到句子的向量&＃xff0c;然后使用cosine函数来计算两个句子的相似/相关度。

无监督训练

作者使用 SNLI(Bowman et al., 2015) 和Multi-Genre NLI(Williams et al., 2018)两个公开的数据集&＃xff0c;带有三种标签contradiction、eintailment、neutral的句子对。

使用Classifification Objective Function来对bert模型进行微调&＃xff0c;详细参数为&＃xff1a;batch_size为16、Adam optimizer、2e-5的学习率、10%的线性学习率warmup&＃xff0c;采用MEAN的pooling策略。

然后在STS数据集上进行验证&＃xff0c;由于未使用到目标数据集&＃xff0c;因此可以认为是无监督训练&＃xff0c;具体效果如下&＃xff1a;

&＃xff08; STS12-STS16:SemEval 2012-2016, STSb: STSbenchmark, SICK-R: SICK relatedness dataset&＃xff0c;这些数据集带有0-5级的相关程度&＃xff09;

明显看出微调后的sentence-bert比原生bert的句向量效果提升了许多&＃xff0c;并且使用RoBERTa可以进一步提升效果。

&＃xff08;作者也是做了实验&＃xff0c;才得出原生bert句向量甚至不如GloVe的结论&＃xff09;
请添加图片描述

监督训练

上面提到&＃xff0c;STS数据的标签是0-5级的相关程度&＃xff0c;作者使用了regression objective function的结构进行微调SBERT。

实验了两种监督训练方案&＃xff1a;

仅使用STSb数据进行监督训练&＃xff1b;
先在NLI数据进行训练&＃xff0c;然后再使用STSb数据

结果如下&＃xff1a;

监督训练比无监督训练效果进一步提升&＃xff0c;并且BERT的模型大小影响较大&＃xff0c;BERT-large比base提升3-4点&＃xff1b;

但使用RoBERTa未没有明显的效果提升。
请添加图片描述

代码实现

tensorflow1.x&＃xff1a;https://github.com/QunBB/DeepLearning/tree/main/NLP/sentence_bert/sbert

pytorch推荐使用&＃xff1a;Sentence-Transformers

推荐阅读

php
嵌入式Linux工程师笔试题精选

本文整理了一份基础的嵌入式Linux工程师笔试题，涵盖填空题、编程题和简答题，旨在帮助考生更好地准备考试。 ... [详细]

蜡笔小新 2024-11-15 10:42:13
function
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
js
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
get
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
main
[BZOJ2654] Tree 问题：二分查找与 Kruskal 算法结合的优化解决方案

题目《BZOJ2654: Tree》的时间限制为30秒，内存限制为512MB。该问题通过结合二分查找和Kruskal算法，提供了一种高效的优化解决方案。具体而言，利用二分查找缩小解的范围，再通过Kruskal算法构建最小生成树，从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率，还确保了在大规模数据集上的稳定性能。 ... [详细]

蜡笔小新 2024-11-11 18:19:28
get
解决针织难题：R语言编程技巧与常见错误分析

解决针织难题：R语言编程技巧与常见错误分析 ... [详细]

蜡笔小新 2024-11-08 15:02:19
get
使用ObjectMapper实现JSON与JavaBean的高效转换

本文介绍了如何利用ObjectMapper实现JSON与JavaBean之间的高效转换。ObjectMapper是Jackson库的核心组件，能够便捷地将Java对象序列化为JSON格式，并支持从JSON、XML以及文件等多种数据源反序列化为Java对象。此外，还探讨了在实际应用中如何优化转换性能，以提升系统整体效率。 ... [详细]

蜡笔小新 2024-11-08 13:21:48
go
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
function
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
get
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
get
利用 Python 中的 Altair 库实现数据抖动的水平剥离分析

利用 Python 中的 Altair 库实现数据抖动的水平剥离分析 ... [详细]

蜡笔小新 2024-11-02 12:39:54
php
PHP-Casbin v3.20.0 发布，性能显著提升

PHP-Casbin v3.20.0 已经发布，这是一个使用 PHP 语言开发的轻量级开源访问控制框架，支持多种访问控制模型，包括 ACL、RBAC 和 ABAC。新版本在性能上有了显著的提升。 ... [详细]

蜡笔小新 2024-11-15 10:54:38
function
优化Shader中复杂数学函数的高效计算方法

本文介绍了在Shader中优化常见数学函数的方法，包括特化和近似计算，以提高渲染性能。这些方法适用于HDR格式和RGBE编码的优化。 ... [详细]

蜡笔小新 2024-11-15 10:39:31
js
中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程

中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程 ... [详细]

蜡笔小新 2024-11-03 13:52:28
php
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12

手机用户2502885633

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章