当前位置: 开发笔记 > 编程语言 > 正文

lucene按照匹配度排序_谈谈文本匹配和多轮检索

作者：手机用户2702932800 | 来源：互联网 | 2023-07-15 04:13

作者：朱帅学校：华中科技大学研究方向：文本匹配，对话系统原文链接，点击“阅读原文”直达：http

作者&＃xff1a;朱帅

学校&＃xff1a;华中科技大学

研究方向&＃xff1a;文本匹配&＃xff0c;对话系统

原文链接&＃xff0c;点击“阅读原文”直达&＃xff1a;

https://zhuanlan.zhihu.com/p/111769969

1. 关于文本匹配

文本匹配是NLP的基础任务之一&＃xff0c;按照论文中的实验对传统的文本匹配任务进行分类&＃xff0c;大致可以分为文本检索(ad-hoc)&＃xff0c;释义识别(Paraphrase Identification)&＃xff0c;自然语言推理(NLI)以及问答匹配(QA)。除此之外&＃xff0c;像实体消歧等其他任务都可以采用文本匹配的思路来解决。不同的文本匹配任务&＃xff0c;虽然实现的目标有所不同&＃xff0c;但是从模型层面都是大同小异的&＃xff0c;针对不同任务的模型大多是可以通用的&＃xff0c;只不过效果上可能会有所差异。文本匹配任务的目标是&＃xff1a;给定一个query和一些候选的documents&＃xff0c;从这些documents中找出与query最匹配的一个或者按照匹配度排序&＃xff1b;本文将两个待匹配的文本定用text_left和text_right&＃xff0c;前者表示query文本&＃xff0c;后者表示documents中一个候选文本。传统的文本匹配任务还是采用基于特征的方式&＃xff0c;无非就是抽取两个文本tf-idf、BM25、词法等层面的特征&＃xff0c;然后使用传统的机器学习模型(LR&＃xff0c;SVM)等进行训练。虽然基于特征的方法可解释性较好&＃xff0c;但是这种依赖于人工寻找特征和不断试错的方法&＃xff0c;泛化能力就显得比较一般&＃xff0c;而且由于特征数量的限制&＃xff0c;导致参数量受到限制&＃xff0c;模型的性能比较一般。2012年以来&＃xff0c;深度学习技术的快速发展以及GPU的出现&＃xff0c;使得人们有机会并且有能力训练大型的深度神经网络。深度学习技术开始对计算机视觉、自然语言处理等各个领域产生了冲击&＃xff0c;作为自然语言处理的一个分支&＃xff0c;文本匹配当然也不例外。2013年&＃xff0c;微软提出 DSSM (2013)&＃xff0c;率先将深度学习技术引入到了文本检索任务中&＃xff0c;开启了文本匹配方向的深度学习时代。不同于传统基于特征的匹配方式&＃xff0c;深度学习时代的文本匹配方法可以概括为两种类型&＃xff1a;基于表征(representation)的匹配和基于交互(interaction)的匹配方式。

所谓基于表征的匹配方式&＃xff0c;初始阶段对两个文本各自单独处理&＃xff0c;通过深层的神经网络进行编码&＃xff0c;得到文本的表征&＃xff0c;然后基于得到的文本表征&＃xff0c;采用相似度计算的函数得到两个文本的相似度。
而基于交互的匹配方式&＃xff0c;则认为在最后阶段才计算文本的相似度会过于依赖表征的质量&＃xff0c;同时也会丢失基础的文本特征(比如词法、句法等)&＃xff0c;所以提出尽可能早的对文本特征进行交互&＃xff0c;捕获更基础的特征&＃xff0c;最后在高层基于这些基础匹配特征计算匹配分数。

2. 基于表征的文本匹配

根据不同匹配方式出现的时间顺序以及当下的流行度&＃xff0c;首先介绍基于表征的匹配方式。上文提到的DSSM (2013) 就是最早的基于表征的匹配方法&＃xff0c;整体流程比较简单&＃xff1a;首先基于bag-of-words得到文本的向量表征&＃xff0c;再基于word-hashing方法降维&＃xff0c;接着就是多层的线性层得到最终128维的文本Embedding&＃xff0c;最后对两个文本Embedding计算cosine相似度得到相似度分数。其实&＃xff0c;这篇论文也基本奠定了基于表征匹配的基本范式(paradigm)&＃xff0c;即Embedding层->Encoding层->DNN层->Prediction层。之后的基于表征的匹配大抵都是类似的流程。2014年&＃xff0c;微软继续提出 CDSSM (2014)&＃xff0c;基本流程和DSSM完全一样&＃xff0c;无非就是将MLP替换成了CNN模型&＃xff0c;可以提取N-gram特征&＃xff0c;不再赘述。其实&＃xff0c;基于表征的方式可创新的地方并不多&＃xff0c;Embedding层是固定的&＃xff0c;Encoding层无非再加上各种char-embedding&＃xff0c;或者entity-embedding来引入先验知识&＃xff1b;可以稍微有点创新的就只有DNN层&＃xff0c;但是由于表征模型从头到尾对两个待匹配文本都是独立处理的&＃xff0c;能做的只能是怎么得到更好的表征向量&＃xff0c;很容易想到的就是把DNN替换为RNN型网络或者后来的Attention网络&＃xff1b;Prediction层则是寻找不同的相似度计算函数&＃xff0c;或者直接使用一层线性层代替。2014年&＃xff0c;华为也提出了一种基于表征的匹配模型 ARC I (2014)&＃xff0c;基本范式和上述结构一致。之后&＃xff0c;还有一些基于表征的匹配方法&＃xff0c;包括孪生网络Siamese Network (2016)以及其变种&＃xff0c;但是在2017年之后基本就没有基于表征的模型出现了。

3. 基于交互的文本匹配

基于表征的方式简单有效&＃xff0c;但是其缺点也非常明显。表征用来表示文本的高层语义特征&＃xff0c;但是文本中单词的关系、句法的特征高层的表征比较难捕获&＃xff0c;很难判定一个表征是否能很好的表征一段文本。要想能够建模文本各个层级的匹配关系&＃xff0c;最好能够尽早地让文本产生交互。通俗来讲就是&＃xff0c;认识的越早&＃xff0c;两个文本对彼此的了解就可能越多。2014年&＃xff0c;华为在ARC I的那篇文章中&＃xff0c;提出了 ARC II (2014) 。首先&＃xff0c;对输入语句得到每个单词的Embedding&＃xff0c;然后经过一层的CNN得到两个句子N-gram级别的表征(这个使用多个不同大小的卷积核&＃xff0c;得到多个N-gram级别表征)&＃xff1b;接着计算基于每一个N-gram级别的表征计算交互矩阵(即一个句子中某一个位置的向量和另一个句子中其他位置的向量计算相似度&＃xff0c;可以是点积或者cosine相似度)&＃xff0c;并在channel维度上进行拼接得到3维的张量&＃xff1b;对上面得到的3维张量采用2D-CNN&＃xff0c;再经过max-pooling得到最终的表征&＃xff1b;Flatten之后经过MLP得到最终的匹配分数。从2014年开始&＃xff0c;中科院郭嘉丰老师团队开始在文本匹配领域发力&＃xff0c;发表了多篇经典的论文&＃xff0c;包括MV-LSTM (2015)&＃xff0c;MatchPyramid (2016)&＃xff0c;DRMM (2016)&＃xff0c;Match-SRNN (2016)等等。前两者基本是对ARC II的补充&＃xff0c;MV-LSTM主要是使用Bi-LSTM对Embedding进行强化编码&＃xff0c;而MatchPyramid则提出了计算交互矩阵时多种匹配模式(Indicator, Cosine, Dot)。前面说过文本匹配中不同任务的模型大多是通用的&＃xff0c;但针对不同任务的特点也可以有一些针对性的创新。上文提到的DRMM就是针对检索领域任务的特点进行了创新。传统的文本匹配大多考虑语义匹配(Semantic Matching)&＃xff0c;而检索任务中的匹配通常是相关性匹配(Relevance Matching)&＃xff0c;关键词在其中起到至关重要的作用。DRMM在计算得到匹配矩阵之后&＃xff0c;采用match histogram的方式将query中每个单词的相似度的值映射到不同的bin中&＃xff0c;[1, 1]这个bin表示exact match&＃xff0c;[-1, 1)区间均匀划分得到的每个bin都表示soft match&＃xff1b;使用直方图中的计数作为向量中每一维的值&＃xff0c;得到每个单词编码后的向量

推荐阅读

深度学习
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
int
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
int
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
int
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
int
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
input
TensorFlow基础知识深化讲解

批标准化批标准化（batchnormalization,BN）是为了克服神经网络层数加深导致难以训练而诞生的。深度神经网络随着深度加深，收 ... [详细]

蜡笔小新 2024-10-22 10:19:31
int
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
php
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
php
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
java
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
java
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
int
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
uri
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
php
高清图解：神经网络、机器学习、数据科学一网打尽

|导|读BY：AI-Beetle完全图解人工智能、NLP、机器学习、深度学习、大数据！这份备忘单涵盖了上述领域几乎全部的知识点，并使用信息图、脑图等多种可视化方式呈现，设计精美，实 ... [详细]

蜡笔小新 2024-10-09 13:33:56
java
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59

手机用户2702932800

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章