当前位置: 开发笔记 > 后端 > 正文

NLP篇【01】tfidf与bm25介绍与对比

作者：0519bobo_724 | 来源：互联网 | 2024-10-13 12:46

上一篇：自然语言处理【NLP】遇上电商——专栏导读下一篇：NLP篇【02】白话Word2vec原理以及层softmax、负采样的实现一、tfidf介

上一篇&＃xff1a;自然语言处理【NLP】遇上电商——专栏导读

下一篇&＃xff1a;NLP篇【02】白话Word2vec原理以及层softmax、负采样的实现

一、tfidf介绍

词频&＃xff08;TF&＃xff09; &＃61; 某个词在文章中的出现次数 / 文章总词数&＃xff0c;逆文档频率&＃xff08;IDF&＃xff09; &＃61; log&＃xff08;语料库的文章总数/包含该词的文章总数&＃43;1&＃xff09;&＃xff0c;tfidf&＃61;tf*idf。举个例子一下子就明白了。如语料库包含以下三篇文章&＃xff08;什么是语料库可百度&＃xff09;&＃xff1a;

第一篇&＃xff1a;张一山与杨紫疑似相恋

第二篇&＃xff1a;C罗又一次完成了帽子戏法&＃xff0c;这就是足球的魅力

第三篇&＃xff1a;恭喜TES创历史记录&＃xff0c;在s10的世界总决赛上完成了让二追三

首先是对每篇文章进行分词且过滤停用词得doc_lis&＃61;[[张一山&＃xff0c;...&＃xff0c;相恋]&＃xff0c;[C罗&＃xff0c;...&＃xff0c;魅力]&＃xff0c;[恭喜&＃xff0c;...&＃xff0c;让二追三]]&＃xff0c;然后依次计算每个词的tfidf。TF(张一山)&＃61;1/4(“与”作为停用词过滤掉了所以是4) IDF(张一山)&＃61;log(3/1&＃43;1)&＃xff0c;所以tfidf&＃61;TF*IDF&＃61;1/4*log3/2&＃61;0.25*0.405&＃61;0.1&＃xff0c;按照这个方式依次计算就能得到所有词的tfidf&＃xff0c;最终的结果如下表&＃xff1a;

文章\词	张一山	杨紫	完成	让二追三
第一篇	0.1	0.1	0	0
第二篇	0	0	0	0
第三篇	0	0	tfidf值	tfidf值

这张表的shape应该&＃xff08;总词数&＃xff0c;总文章数&＃xff09;&＃xff0c;因此tfidf的应用可以有&＃xff1a;1、文章关键词提取&＃xff08;可以提取tfidf值前几个作为关键词&＃xff09;2、文章分类&＃xff0c;这个矩阵直接输入到项lsvm&＃xff0c;lr等模型&＃xff08;当然要打好label&＃xff09;3、用LDA或SVD进行降维&＃xff08;为什么要降维&＃xff0c;因为语料库的总词数是非常多的&＃xff0c;所以每篇文章的向量是非常稀疏的&＃xff09;&＃xff0c;再当做文章的embeding 4、把tfidf或idf值当做每个词的权重

tfidf算法的优点&＃xff1a;简单&＃xff0c;快速&＃xff0c;如果语料库是不变的话&＃xff0c;可以提前离线计算好语料库中所有词的tfidf值&＃xff08;这在实际应用中非常重要的&＃xff0c;后面有这个应用的举例&＃xff09;

缺点&＃xff1a;1、仅以“词频”度量词的重要性&＃xff0c;后续构成文档的特征值序列&＃xff0c;词之间各自独立&＃xff0c;无法反映序列信息 2、tfidf得到是一个稀疏而庞大的矩阵&＃xff0c;需要采用降维方式&＃xff0c;才方便做后续的文本任务&＃xff0c;而降维可能会损失一些信息&＃xff0c;同时降维的也会提高模型的复杂度&＃xff0c;而失去了原本快速的优点 3、tfidf得到的embedings再输入后续的模型&＃xff0c;做文本分类、文本匹配等任务&＃xff0c;在效果上通常会差于采用词向量模型训练得到的embedding。

二、bm25

bm25 是一种用来评价搜索词和文档之间相关性的算法&＃xff0c;用简单的话来描述下bm25算法&＃xff1a;我们有一个query和一批文档Ds&＃xff0c;现在要计算query和每篇文档D之间的相关性分数。这种场景的应用就有很多&＃xff1a;1、电商中计算搜索词query与商品的之间的相关性 2、知乎搜索中搜索词query与回答之间的相关性 3、匹配式智能客服中&＃xff0c;用户问题与答案之间的相关性等。那bm25算法是怎样计算query与文档之间的相关性的呢&＃xff1f;BM25算法计算相关性的一般性公式如下&＃xff1a;

其中&＃xff0c;Q表示Query&＃xff0c;qi表示Q分词之后的每个单词&＃xff1b;d表示一个文档&＃xff1b;Wi表示词qi的权重&＃xff1b;R(qi&＃xff0c;d)表示词qi与文档d的相关性得分。所以query中每个词与文档的相关性的加权和就是query与文档的相关性得分。而求query中每个词的权重就可以使用上面所讲的tfidf&＃xff0c;但常常只用idf&＃xff08;后面会讲为什么只用idf的原因&＃xff09;&＃xff0c;而这里采用idf的公式为&＃xff1a;

其中n(qi)是文档包含词qi的文档数&＃xff0c;N是文档总数&＃xff0c;和上面的idf计算公式有点不同&＃xff0c;但思路是相同的。而求R(qi&＃xff0c;d)的公式为如下&＃xff1a;

其中&＃xff0c;k1&＃xff0c;b为调节因子&＃xff0c;通常根据经验设置&＃xff0c;一般k1&＃61;2&＃xff0c;b&＃61;0.75&＃xff1b;fi为qi在d中的出现频率&＃xff0c;dl为文档d的长度&＃xff0c;avgdl为所有文档的平均长度。总的来讲就是R(qi&＃xff0c;d)与这个词在该文档中出现的频率呈正相关&＃xff0c;与该文档的长度呈负相关。最终Score(Q,d)的公式为&＃xff1a;

同样下面我举例计算一下&＃xff0c;同样假如有三个文档如下&＃xff1a;

第一篇&＃xff1a;张一山与杨紫疑似相恋

第二篇&＃xff1a;C罗又一次完成了帽子戏法&＃xff0c;这就是足球的魅力

第三篇&＃xff1a;恭喜TES创历史记录&＃xff0c;在s10的世界总决赛上完成了让二追三

用户输入的query是“足球相关新闻”&＃xff0c;下面我来计算一下和哪篇最相关。首先分此后query&＃61;[足球&＃xff0c;相关&＃xff0c;新闻]

第一篇中&＃xff1a;idf(足球)&＃61;log(3-0&＃43;0.5)/(0&＃43;0.5)&＃xff0c;idf(相关)&＃61;log(3-0&＃43;0.5)/(0&＃43;0.5)&＃xff0c;idf(新闻)&＃61;log(3-0&＃43;0.5)/(0&＃43;0.5)

R(足球&＃xff0c;第一篇)&＃61;0*(2&＃43;1)/(0&＃43;K)&＃61;0&＃xff0c;R(相关&＃xff0c;第一篇)&＃61;0&＃xff0c;R(新闻&＃xff0c;第一篇)&＃61;0&＃xff0c;所以

Score(“足球相关新闻”,第一篇)&＃61;0

同理可以计算和第二篇的相似性得分&＃xff0c;最终可以发现和第二篇相似性得分最高。

下面我就解释下只用idf做权重的原因&＃xff1a;

$tfidf&＃61;idf*fi/dl$

写成这样Score(Q,d)&＃61; $\sum tfidf&＃61;\sum IDF*fi/dl$

bm25的算法的优缺点&＃xff1a;

优点&＃xff1a;可以方便线下做离线先计算好文档中出现的每一个词的idf并保存为一个字典&＃xff0c;当用户搜了一个query&＃xff0c;直接分词然后查字典就能得到这个词的idf&＃xff0c;如果字典中没有idf值无意义&＃xff0c;因为R&＃61;0。同于tfidf。

缺点&＃xff1a;同于tfidf

推荐阅读

上传
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
nlp
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
nlp
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
nlp
步入人工智能新时代，这些关键知识点不容错过

步入人工智能新时代，掌握这些关键知识点至关重要。AI技术将成为人类的重要辅助工具，不仅能够扩展和增强人类的智能，还能帮助我们实现更加卓越的成就。新一代人工智能技术的发展将为各行各业带来深远的影响，推动社会进步与创新。 ... [详细]

蜡笔小新 2024-10-29 20:04:07
nlp
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
nlp
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
nlp
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
nlp
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
nlp
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
nlp
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
nlp
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
nlp
支持向量机（SVM）在机器学习中的应用与学习心得

支持向量机（SVM）是一种高效的二分类模型，其核心目标是通过寻找最优超平面来区分不同类别的数据点。在实际应用中，SVM能够有效地处理高维数据，并通过核技巧扩展到非线性分类问题。当新的数据点输入时，SVM会根据其相对于超平面的位置来判定其所属类别。训练过程中，SVM通过最大化间隔来确定最优超平面，从而提高模型的泛化能力。本文总结了SVM在机器学习中的应用及其学习心得，探讨了其在实际问题中的优势和局限性。 ... [详细]

蜡笔小新 2024-11-06 19:38:05
nlp
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
正则
弱监督目标检测之一最小熵隐变量模型

目标检测是计算机视觉一个非常重要的子任务。目标检测需要发现并准确定位自然图片中的物体。在2012年之前，目标检测主要基于手工设计的特征以及传统分类器。2012年以后，出现了 ... [详细]

蜡笔小新 2024-10-20 17:50:44
正则
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18

0519bobo_724

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章