短文本分析基于python的TFIDF特征词标签自动化提取

作者：手机用户2502876273 | 来源：互联网 | 2023-09-18 18:46

最近做课题，需要分析短文本的标签，在短时间内学习了自然语言处理，社会标签推荐等非常时髦的技术。我们的需求非常类似于从大量短文本中获取关键词（融合社会标签和时间属性）进行用户画像。这

最近做课题，需要分析短文本的标签，在短时间内学习了自然语言处理，社会标签推荐等非常时髦的技术。我们的需求非常类似于从大量短文本中获取关键词（融合社会标签和时间属性）进行用户画像。这一切的基础就是特征词提取技术了，本文主要围绕关键词提取这个主题进行介绍（英文）。

不同版本python混用（官方用法）

Python2 和python3 是一个神一般的存在，如何让他们共存呢，直到我用了pycharm我才知道为啥这么多人选择它，如下图所示配置两个目录直接可以混用了，叼炸天。

短文本分析----基于python的TF-IDF特征词标签自动化提取

插播一个广告，想修改pycharm中python注释的颜色找了半天居然得这么搞：

短文本分析----基于python的TF-IDF特征词标签自动化提取

当大家搜索如何在系统中混合使用python2和python3，国内网站经常会让大家把其中一个python.exe改个名字，这样区分开两个可执行文件的名字，但是这样做有一个重大的隐患，就是修改了名字的那个python对应的pip将无法使用。有时候还是需要用用命令行的，怎么办？

官方用法为：
　　在安装Python3（>=3.3）时，Python的安装包实际上在系统中安装了一个启动器py.exe，默认放置在文件夹C:\Windows\下面。这个启动器允许我们指定使用Python2还是Python3来运行代码（当然前提是你已经成功安装了Python2和Python3）。
　　
　　如果你有一个Python文件叫 hello.py，那么你可以这样用Python2运行它
　　

py -2 hello.py

　　类似的，如果你想用Python3运行它，就这样

py -3 hello.py

　　去掉参数 -2/-3
　　
　　每次运行都要加入参数-2/-3还是比较麻烦，所以py.exe这个启动器允许你在代码中加入说明，表明这个文件应该是由python2解释运行，还是由python3解释运行。说明的方法是在代码文件的最开始加入一行
　　

#! python2

或者

#! python3

　　分别表示该代码文件使用Python2或者Python3解释运行。这样，运行的时候你的命令就可以简化为
　　

py hello.py
使用pip
　　
　　当Python2和Python3同时存在于windows上时，它们对应的pip都叫pip.exe，所以不能够直接使用 pip install 命令来安装软件包。而是要使用启动器py.exe来指定pip的版本。命令如下：
　　

py -2 -m pip install XXXX

　　-2 还是表示使用 Python2，-m pip 表示运行 pip 模块，也就是运行pip命令了。如果是为Python3安装软件，那么命令类似的变成
　　

py -3 -m pip install XXXX
　　
#! python2 和 # coding: utf-8 哪个写在前面？

　　对于Python2用户还有另外一个困惑，Python2要在代码文件顶部增加一行说明，才能够在代码中使用中文。如果指明使用的Python版本也需要在文件顶部增加一行，那哪一行应该放在第一行呢？
　　
　　#! python2 需要放在第一行，编码说明可以放在第二行。所以文件开头应该类似于：
　　

#!python2
# coding: utf-8

　　有了这些技巧，Python2和Python3就可以愉快地在一起玩耍了～
　　
　　Python标准：https://www.python.org/dev/peps/pep-0397/

信息检索概述

信息检索是当前应用十分广泛的一种技术，论文检索、搜索引擎都属于信息检索的范畴。通常，人们把信息检索问题抽象为：在文档集合D上，对于由关键词w[1] … w[k]组成的查询串q，返回一个按查询q和文档d匹配度 relevance (q, d)排序的相关文档列表D。

对于这一基问题，先后出现了布尔模型、向量模型等各种经典的信息检索模型，它们从不同的角度提出了自己的一套解决方案。

布尔模型以集合的布尔运算为基础，查询效率高，但模型过于简单，无法有效地对不同文档进行排序，查询效果不佳。

向量模型把文档和查询串都视为词所构成的多维向量，而文档与查询的相关性即对应于向量间的夹角。不过，由于通常词的数量巨大，向量维度非常高，而大量的维度都是0，计算向量夹角的效果并不好。另外，庞大的计算量也使得向量模型几乎不具有在互联网搜索引擎这样海量数据集上实施的可行性。

TF-IDF原理概述

如何衡量一个特征词在文本中的代表性呢？以往就是通过词出现的频率，简单统计一下，从高到低，结果发现了一堆的地得，和英文的介词in of with等等，于是TF-IDF应运而生。

TF-IDF不但考虑了一个词出现的频率TF，也考虑了这个词在其他文档中不出现的逆频率IDF，很好的表现出了特征词的区分度，是信息检索领域中广泛使用的一种检索方法。

Tf-idf算法公式以及说明:

短文本分析----基于python的TF-IDF特征词标签自动化提取

具体实现如下所示，公式分成两项，词频*逆词频，逆词频取log值。

短文本分析----基于python的TF-IDF特征词标签自动化提取

短文本分析----基于python的TF-IDF特征词标签自动化提取
注意分母中的+1，在很多文献中并没有出现，这个可能引发异常。

本人写了一份代码近期正在修改，后续传到github 上，再贴出来。文章末尾贴出了两份我认为比较好的代码，一份是面向对象的实现一份是分布式的。

tfidf源代码实现及相关博客资料：

python scikit-learn计算tf-idf词语权重（scikit-learn包中提供了tfidf的矩阵实现，缺点是词数量过大可能溢出）
http://www.tuicool.com/articles/U3uiiu

http://www.cnblogs.com/chenbjin/p/3851165.html
http://blog.csdn.net/liuxuejiang158blog/article/details/31360765?utm_source=tuicool&utm_medium=referral
http://blog.csdn.net/lsldd/article/details/41520953
http://blog.csdn.net/zhb_bupt/article/details/40985831
http://www.tuicool.com/articles/feIji2

参考文献

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
https://news.cnblogs.com/n/161240/ （tf-idf的概率解释）
https://www.python.org/dev/peps/pep-0397/ （python不同版本共存官方文档）
http://mt.sohu.com/20160416/n444499895.shtml （python版本混用中文翻译）

github代码：

https://github.com/mirsamantajbakhsh/TFIDF
https://github.com/laertispappas/mapreduce_python
(分布式版本)

推荐阅读

go
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
go
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
java
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
python
macOS 上 Visual Studio Code 的安装与配置指南

Visual Studio Code (VSCode) 是一款功能强大的源代码编辑器，支持多种编程语言，具备丰富的扩展生态。本文将详细介绍如何在 macOS 上安装、配置并使用 VSCode。 ... [详细]

蜡笔小新 2024-11-12 19:45:55
python
Python 3 Scrapy 框架执行流程详解

本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架，包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架，适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]

蜡笔小新 2024-11-12 10:51:15
python
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
include
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
python
利用ZFS和Gluster实现分布式存储系统的高效迁移与应用

本文探讨了在Ubuntu 18.04系统中利用ZFS和Gluster文件系统实现分布式存储系统的高效迁移与应用。通过详细的技术分析和实践案例，展示了这两种文件系统在数据迁移、高可用性和性能优化方面的优势，为分布式存储系统的部署和管理提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-08 17:18:57
version
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
search
EST：西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...

点击蓝字关注我们编译：祝新宇校稿：鞠峰、袁凌论文ID原名：PathogenicandIndigenousDenitrifyingBacte ... [详细]

蜡笔小新 2024-11-13 21:09:41
search
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
search
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
go
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
search
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
python
如何在 PyCharm 中输入注册码？—— PyCharm 使用指南

在 PyCharm 中输入注册码的操作步骤如下：首先，在菜单栏中依次选择“Help”和“Register”，然后按照提示完成注册码的输入。这一过程简单快捷，有助于用户快速激活软件并享受完整功能。此外，建议用户确保网络连接畅通，以避免注册过程中可能出现的问题。 ... [详细]

蜡笔小新 2024-11-09 18:58:57

手机用户2502876273

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章