TFIDF的原理与实际应用

作者：mobiledu2502891283 | 来源：互联网 | 2023-09-07 13:40

TF-IDF的原理与实际应用一、TF-IDF简介TF-IDF(termfrequency-inversedocumentfrequency)是一种统计方法，用以评估一

TF-IDF的原理与实际应用

在这里插入图片描述

一、TF-IDF简介

TF-IDF(term frequency-inverse document frequency) 是一种统计方法&＃xff0c;用以评估一个字词对于一个文本集或一个语料库中的其中一份文件的重要程度&＃xff0c;是用于信息检索和文本挖掘的常用加权技术。
tf-idf &＃61; tf(词频) × idf (逆向文档频率) 利用逆向文档频率来控制约束词频
tf &＃61; n / N
n: 词语在某篇文本中出现的频率 &＃xff1b;
n / N 的目的是实现归一化&＃xff0c; N &＃xff1a;该文件中所有词汇的数目
idf &＃61; log(D / d)
D: 总的文档数
d: 词语所在的文档数

在公式中&＃xff0c;我们能够发现&＃xff0c;总的文档数是固定不变的&＃xff0c;词语所在的文档数越少&＃xff0c;idf值越大&＃xff1b;词语所在的文档数越多&＃xff0c;idf值越小。
这样的话&＃xff0c;我们总体来看&＃xff0c;tf-idf的值会与tf(词语的频率)成正比&＃xff0c;但是会随着词语所在的文档数越多而减少。这样&＃xff0c;tf-idf就达到了突出重要词语&＃xff0c;抑制次要词语的效果。

二、TF-IDF的缺陷
单纯的认为频率越小的词越重要&＃xff1b;频率越大的词越无用&＃xff1b;同时无法体现上下文信息。
三、sklearn中的TF-IDF
https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html?highlight&＃61;tfidf#sklearn.feature_extraction.text.TfidfVectorizer

tf &＃61; n 没有对tf进行归一化 &＃xff0c;但是对 tf-idf的整个值进行了归一化
idf &＃61; log[ ( D &＃43; 1 ) / (d &＃43; 1) ] &＃43; 1 平滑处理保证分母不为0
注&＃xff1a; sklearn是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用&＃xff0c;并且涵盖了几乎所有主流机器学习算法。分类classification、回归 regression、聚类 clustering、降维 dimensionality reduction 、模型选择 model selection 、预处理 preprocessing

四、归一化问题
&＃xff08;一&＃xff09;不归一化

from sklearn.feature_extraction.text import TfidfVectorizer # 使用之前实例化 tf实例 tv &＃61; TfidfVectorizer(use_idf&＃61;True, smooth_idf&＃61;True, norm&＃61;None) # norm&＃61;None表示不做归一化处理&＃xff0c;默认采用l2的方式 # 输入训练集矩阵&＃xff0c;每行表示一个文本 # train &＃61; ["Chinese Beijing Chinese", # "Chinese Chinese Shanghai", # "Chinese Macao", # "Tokyo Japan Chinese"] train &＃61; ["I love nlp nlp","nlp loves me","I love China","China Chinese"] # 训练&＃xff0c;构建词汇表以及词项idf值&＃xff0c;并将输入文本列表转成VSM矩阵形式&＃xff08;向量空间模型&＃xff09; tv_fit &＃61; tv.fit_transform(train) # 打印构建的词汇表 print(tv.get_feature_names()) tv_fit.toarray().tolist() # 将每个词对应的tf-idf值以列表的形式输出由于没有采用归一化&＃xff0c;这样tf-idf的值就不会在0-1之间

在这里插入图片描述
为了验证&＃xff0c;我们可以通过公式进行计算&＃xff1a;
以词语 nlp 为例&＃xff0c;在第一篇文档中出现的次数为2&＃xff0c;所有文档中包含nlp的文档数为2

import math tf &＃61; 2 idf &＃61; math.log((4&＃43;1)/(2&＃43;1))&＃43;1 print(tf*idf)

在这里插入图片描述
可以看到两者值相等。
&＃xff08;二&＃xff09;以l2的方式归一化

从sklearn提供的官方文档中&＃xff0c;我们可以发现&＃xff0c;sklearn默认以l2的方式进行归一化操作&＃xff1b;
l2: sum of sqquares of vector elements is 1. 每一行的平方和为1

tv &＃61; TfidfVectorizer(use_idf&＃61;True, smooth_idf&＃61;True,norm &＃61; &＃39;l2&＃39;)#Sum of squares of vector elements is 1 表示每一行平方和为1 # 输入训练集矩阵&＃xff0c;每行表示一个文本 train &＃61; ["I love nlp nlp","nlp loves me","I love China","China Chinese"] # 训练&＃xff0c;构建词汇表以及词项idf值&＃xff0c;并将输入文本列表转成VSM矩阵形式 tv_fit &＃61; tv.fit_transform(train) # 查看一下构建的词汇表 print(tv.get_feature_names())# 查看输入文本列表的VSM矩阵 tv_fit.toarray().tolist()

在这里插入图片描述

通过验证&＃xff1a;
在这里插入图片描述
&＃xff08;三&＃xff09;以l1的方式归一化
l1&＃xff1a;Sum of absolute values of vector elements is 1. 每一行的绝对值之和为1

from sklearn.feature_extraction.text import TfidfVectorizer # 表示l1归一化的方式为每一行相加之和为1 tv &＃61; TfidfVectorizer(use_idf&＃61;True, smooth_idf&＃61;True,norm &＃61; &＃39;l1&＃39;) # l1 Sum of absolute values of vector elements is 1 # 输入训练集矩阵&＃xff0c;每行表示一个文本 train &＃61; ["I love nlp nlp","nlp loves me","I love China","China Chinese"] # train &＃61; ["我爱自然语言处理", # "自然语言处理也爱我", # "我是中国人", # "自然语言处理是一门课程"] # 训练&＃xff0c;构建词汇表以及词项idf值&＃xff0c;并将输入文本列表转成VSM矩阵形式 tv_fit &＃61; tv.fit_transform(train) # 查看一下构建的词汇表 print(tv.get_feature_names()) # 查看输入文本列表的VSM矩阵 tv_fit.toarray().tolist()

在这里插入图片描述
验证&＃xff1a;

&＃xff08;四&＃xff09;传统方式归一化
需要导入TfidfTransformer和CountVectorizer这两个第三方库

from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer from sklearn.preprocessing import Normalizer # sklearn中实现归一化的方法Normalizer vectorizer &＃61; CountVectorizer() # 实例化计数文本中出现的单词个数 transformer &＃61; TfidfTransformer(norm &＃61; None) # corpus &＃61; ["我来到中国旅游", "中国欢迎你","我喜欢来到中国天安门"] train &＃61; ["I love nlp nlp","nlp loves me","I love China","China Chinese"]

norm1 &＃61; Normalizer(norm&＃61;&＃39;l1&＃39;) # 采用l1的方式相加之和为1 a &＃61; vectorizer.fit_transform(train) print(vectorizer.get_feature_names()) print(a.toarray().tolist()) # 制作频率统计的矩阵之后就可以对矩阵进行归一化

在这里插入图片描述

a &＃61; norm1.fit_transform(a) print(a.toarray().tolist()) # n/N 1/3 2/3

在这里插入图片描述

result_list2 &＃61; transformer.fit_transform(a).toarray().tolist() word &＃61; vectorizer.get_feature_names() #print(transformer.get_params()) print(&＃39;词典为&＃xff1a;&＃39;) print(word) print(&＃39;tf-idf值(没有归一化)为&＃xff1a;&＃39;) for weight in result_list2:print(weight)

在这里插入图片描述

import math tf &＃61;2/3 idf &＃61; math.log((4&＃43;1)/(2&＃43;1))&＃43;1 tf*idf

在这里插入图片描述

推荐阅读

ip
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
ip
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
ip
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
int
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
int
Oracle分析函数first_value()和last_value()的用法及原理

本文介绍了Oracle分析函数first_value()和last_value()的用法和原理，以及在查询销售记录日期和部门中的应用。通过示例和解释，详细说明了first_value()和last_value()的功能和不同之处。同时，对于last_value()的结果出现不一样的情况进行了解释，并提供了理解last_value()默认统计范围的方法。该文对于使用Oracle分析函数的开发人员和数据库管理员具有参考价值。 ... [详细]

蜡笔小新 2023-12-13 19:07:23
ip
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30
version
自动轮播，反转播放的ViewPagerAdapter的使用方法和效果展示

本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter，并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]

蜡笔小新 2023-12-13 14:41:31
string
SpringJdbcTemplate的使用详解

本文详细介绍了Spring的JdbcTemplate的使用方法，包括执行存储过程、存储函数的call()方法，执行任何SQL语句的execute()方法，单个更新和批量更新的update()和batchUpdate()方法，以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]

蜡笔小新 2023-12-13 14:27:11
string
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新 2023-12-13 11:21:32
int
3.223.28周学习总结中的贪心作业收获及困惑

本文是对3.223.28周学习总结中的贪心作业进行总结，作者在解题过程中参考了他人的代码，但前提是要先理解题目并有解题思路。作者分享了自己在贪心作业中的收获，同时提到了一道让他困惑的题目，即input details部分引发的疑惑。 ... [详细]

蜡笔小新 2023-12-13 03:42:02
int
如何更高效地使用IF函数来获取输出列表

本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出，并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码，并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作，但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]

蜡笔小新 2023-12-12 17:32:28
split
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
int
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
ip
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
install
【疑难杂症】allennlp安装报错：Installing build dependencies ... error

背景：配置PURE的算法环境，安装allennlp0.9.0（pipinstallallennlp0.9.0）报错ÿ ... [详细]

蜡笔小新 2023-10-17 16:20:30

mobiledu2502891283

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章