当前位置: 开发笔记 > 编程语言 > 正文

【一起从0开始学习人工智能0x03】文本特征抽取TfidVectorizer

作者：林淑芬若纯嘉友 | 来源：互联网 | 2023-09-10 22:18

文章目录文本特征抽取TfidVectorizerTfidVecorizer--------Tf-IDFTF-IDF------重要程度文本特征抽取TfidVectorizer前几

文章目录

文本特征抽取TfidVectorizer
- - TfidVecorizer--------Tf-IDF
  - TF-IDF------重要程度

文本特征抽取TfidVectorizer

前几种方法的缺点&＃xff1a;有很多词虽然没意义&＃xff0c;但是出现次数很多&＃xff0c;会影响结果&＃xff0c;有失偏颇------------关键词

TfidVecorizer--------Tf-IDF

思想&＃xff1a;一个词在一篇文章中出现概率高&＃xff0c;但是在其他文章很少出现------------认为这个很适合来分类

TF-IDF------重要程度

TF------------term frequency---------------------词频
IDF------------inverse document frequency----------逆向文档频率

在这里插入图片描述

from sklearn.feature_extraction.text import TfidfVectorizer tfidf_vec &＃61; TfidfVectorizer() # stop words自定义停用词表&＃xff0c;为列表List类型 # token_pattern过滤规则&＃xff0c;正则表达式&＃xff0c;如r"(?u)bw&＃43;b # max_df&＃61;0.5&＃xff0c;代表一个单词在 50% 的文档中都出现过了&＃xff0c;那么它只携带了非常少的信息&＃xff0c;因此就不作为分词统计 documents &＃61; [ &＃39;this is the bayes document&＃39;, &＃39;this is the second second document&＃39;, &＃39;and the third one&＃39;, &＃39;is this the document&＃39; ] tfidf_matrix &＃61; tfidf_vec.fit_transform(documents) # 拟合模型&＃xff0c;并返回文本矩阵表示了每个单词在每个文档中的 TF-IDF 值 print(&＃39;输出每个单词在每个文档中的 TF-IDF 值&＃xff0c;向量里的顺序是按照词语的 id 顺序来的:&＃39;, &＃39;\n&＃39;, tfidf_matrix.toarray()) print(&＃39;不重复的词:&＃39;, tfidf_vec.get_feature_names()) print(&＃39;输出每个单词对应的 id 值:&＃39;, tfidf_vec.vocabulary_) print(&＃39;返回idf值:&＃39;, tfidf_vec.idf_) print(&＃39;返回停用词表:&＃39;, tfidf_vec.stop_words_)

&＃x1f338;I could be bounded in a nutshell and count myself a king of infinite space.

特别鸣谢&＃xff1a;木芯工作室、Ivan from Russia

推荐阅读

int
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
int
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
数组
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
int
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
io
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
int
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
int
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
main
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
int
org.apache.catalina.LifecycleEvent类的使用及代码示例

标题： ... [详细]

蜡笔小新 2023-12-13 11:03:10
md5
南邮ctf-web的writeup

本文介绍了南邮ctf-web的writeup，包括签到题和md5 collision。在CTF比赛和渗透测试中，可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型，可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]

蜡笔小新 2023-12-13 10:58:55
int
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
int
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
io
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
int
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30
int
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45

林淑芬若纯嘉友

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章