MSMARCOPassageRankingLeaderboard——BM25+monoBERT+duoBERT+TCP

作者：Annfeliz | 来源：互联网 | 2024-10-16 18:52

本文对MSMARCOPassageRanking榜单的BM25monoBERTduoBERTTCP进行解读，原文地址请点击此处。1.背景介绍这个模型在MSMARCO

本文对MS MARCO Passage Ranking 榜单的 BM25 &＃43; monoBERT &＃43; duoBERT &＃43; TCP 进行解读&＃xff0c;原文地址请点击此处。

1. 背景介绍

这个模型在MS MARCO上的最好成绩是0.38&＃xff0c;和目前的SOTA 0.45有一定差距&＃xff0c;但由于作者 Rodrigo Nogueira 等人在此前的一篇论文《Passage Re-ranking with BERT》中首次将BERT用于检索中的重排序任务&＃xff0c;是将BERT作为重排序器的鼻祖&＃xff0c;因此他的 BM25 &＃43; monoBERT &＃43; duoBERT &＃43; TCP 还是要解读一遍的。在《Passage Re-ranking with BERT》中&＃xff0c;Rodrigo Nogueira 给出了BERT作为重排序器&＃xff08;查询与段落拼接&＃xff0c;当成BERT句子对分类任务来做&＃xff09;的 Baseline 结果&＃xff0c;如下图&＃xff0c;
在这里插入图片描述
BM25 &＃43; monoBERT &＃43; duoBERT &＃43; TCP 这个模型探索了BERT作为重排序器的更多玩法&＃xff0c;比朴素地使用BERT的效果提升约3个点&＃xff0c;我们在后面介绍。

2. Multi-Stage Ranking with BERT

在这里插入图片描述
如图所示&＃xff0c;作者将检索&＃43;重排序分为了三个阶段&＃xff1a; $H_{0}$ 、 $H_{1}$ 和 $H_{2}$ 。

$H_{0}$ &＃xff1a;“Bag of Words” BM25
阶段 $H_{0}$ 使用 BM25 进行精确的词条匹配&＃xff0c;接收查询 $q$ &＃xff0c;输出 top- $k_{0}$ 个候选 $R_{0}$
$H_{1}$ &＃xff1a;monoBERT
monoBERT 就是最原始的BERT用法&＃xff0c;将查询与段落按照BERT的方式拼接&＃xff0c;计算他们之间的相关性分数&＃xff0c;论文将这种方式称为 Pointwise re-ranker。阶段 $H_{1}$ 基于 monoBERT 生成的相关性分数&＃xff0c;输出 top- $k_{1}$ 个候选 $R_{1}$
$H_{2}$ &＃xff1a;duoBERT
这个 duoBERT 比较新鲜&＃xff0c;采用了 Pairwise 的方式训练 re-ranker。注意到这里出现的 Pairwise 和前面的 Pointwise&＃xff0c;这两其实是之前机器学习排序模型&＃xff08;Learning to Rank&＃xff09;中的概念&＃xff1a;

根据学习目标的不同&＃xff0c;排序模型大体可以分为Pointwise、Pairwise和Listwise。这三种方法的示意图如上图所示。其中&＃xff0c;Pointwise方法直接预测每个文档和问题的相关分数&＃xff0c;尽管这种方法很容易实现&＃xff0c;但对于排序来说&＃xff0c;更重要的是学到不同文档之间的排序关系。基于这种思想&＃xff0c;Pairwise方法将排序问题转换为对两两文档的比较。具体来讲&＃xff0c;给定一个问题&＃xff0c;每个文档都会和其他的文档两两比较&＃xff0c;判断该文档是否优于其他文档。这样的话&＃xff0c;模型就学习到了不同文档之间的相对关系。

然而&＃xff0c;Pairwise的排序任务存在两个问题&＃xff1a;第一&＃xff0c;这种方法优化两两文档的比较而非更多文档的排序&＃xff0c;跟文档排序的目标不同&＃xff1b;第二&＃xff0c;随机从文档中抽取Pair容易造成训练数据偏置的问题。为了弥补这些问题&＃xff0c;Listwise方法将Pairwsie的思路加以延伸&＃xff0c;直接学习排序之间的相互关系。根据使用的损失函数形式&＃xff0c;研究人员提出了多种不同的Listwise模型。比如&＃xff0c;ListNet直接使用每个文档的top-1概率分布作为排序列表&＃xff0c;并使用交叉熵损失来优化。ListMLE使用最大似然来优化。SoftRank直接使用NDCG这种排序的度量指标来进行优化。大多数研究表明&＃xff0c;相比于Pointwise和Pairwise方法&＃xff0c;Listwise的学习方式能够产生更好的排序结果。&＃xff08;以上两段引用自这里&＃xff09;

回到本文&＃xff0c;duoBERT 将查询 $q$ &＃xff0c;候选段落 $d_{i}$ 和候选段落 $d_{j}$ 拼接送入BERT&＃xff0c;取[CLS]输出向量计算概率&＃xff0c;因为有 $k_{1}$ 个候选段落&＃xff0c;所以要计算 $k_{1} * (k_{1}-1)$ 次概率。训练时采用以下损失函数&＃xff1a;
$,j∈Jposlog⁡(1−pi,j)\begin{aligned} L_{\text {duo }}&＃61;-& \sum_{i \in J_{\text {pos }}, j \in J_{\text {neg }}} \log \left(p_{i, j}\right) \\ &-\sum_{i \in J_{\text {neg }}, j \in J_{\mathrm{pos}}} \log \left(1-p_{i, j}\right) \end{aligned}$

根据损失函数来看&＃xff0c;建模的任务应该是最大化段落 $d_{i}$ 与查询 $q$ 的相关分数大于段落 $d_{j}$ 与查询 $q$ 的相关分数的概率&＃xff0c;即 $d_{i}$ 优于 $d_{j}$ 的概率。在推理时&＃xff0c;聚合成对分数 $p_{i,j}$ &＃xff0c;以便每个文档都收到一个分数 $s_{i}$ 。论文给出了五种不同的聚合方法&＃xff08;SUM、BINARY、MIN、MAX 和 SAMPLE&＃xff09;&＃xff1a;
$:si&＃61;∑j∈Ji(m)pi,j,\begin{aligned} \text { SUM }: s_{i} &&＃61;\sum_{j \in J_{i}} p_{i, j}, \\ \text { BINARY }: s_{i}&&＃61; \sum_{j \in J_{i}} \mathbb{1}_{p_{i, j}>0.5}, \\ \text { MIN }: s_{i} &&＃61;\min _{j \in J_{i}} p_{i, j}, \\ \text { MAX }: s_{i} &&＃61;\max _{j \in J_{i}} p_{i, j}, \\ \text { SAMPLE }: s_{i} &&＃61;\sum_{j \in J_{i}(m)} p_{i, j}, \end{aligned}$

其中 $Ji&＃61;{0≤j<∣R1∣,j≠i}J_{i}&＃61;\left\{0 \leq j<\left|R_{1}\right|, j \neq i\right\}$ &＃xff0c; $m$ 是从集合 $J_{i}$ 中不放回抽取的样本数。最终的候选列表 $R_{2}$ 根据分数 $s_{i}$ 重新排列 $R_{1}$ 中的候选得到。

3. 实验结果分析

等等&＃xff0c;BM25 &＃43; monoBERT &＃43; duoBERT &＃43; TCP 里面的 TCP 呢&＃xff1f;这是个什么东西&＃xff1f;协议&＃xff1f;其实 TCP 是 Target Corpus Pre-training 的缩写&＃xff0c;即在目标语料库 MS MARCO 进一步预训练的意思&＃xff0c;就这么简单。
在这里插入图片描述
上图显示了在 MS MARCO 数据集上的实验结果&＃xff0c;Anserini 实现的 BM25 要比微软的效果好两个点&＃xff0c;造成差异的原因有以下几种&＃xff1a; tokenization、停用词选择、词干提取和参数调整等。这种多阶段的方法还是比较费时的&＃xff0c;毕竟要接连过两个交互式BERT&＃xff0c;duoBERT 还要计算 $k_{1} * (k_{1}-1)$ 次&＃xff0c;很大程度上增加了检索延迟&＃xff0c;但是将 Pairwise 应用于 BERT 上这一点还是很有借鉴性的&＃xff0c;这篇论文也在一定程度上为后来的榜首 DR-BERT &＃xff08;美团提出的&＃xff09;提供了思路。

推荐阅读

io
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
io
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
io
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
io
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
io
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
io
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
io
深入解析 MVC 源码：ParameterDescriptor 与 Action 方法参数绑定

在前两篇文章中，我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象，分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor，即用于描述 Action 方法参数的对象，并详细介绍其工作原理。 ... [详细]

蜡笔小新 2024-12-27 15:26:10
io
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
io
Android 渐变圆环加载控件实现

本文介绍了如何在 Android 中创建一个自定义的渐变圆环加载控件，该控件已在多个知名应用中使用。我们将详细探讨其工作原理和实现方法。 ... [详细]

蜡笔小新 2024-12-27 13:34:19
io
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
io
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
io
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
io
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
io
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
io
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20

Annfeliz

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章