fasttext和gensim训练词向量

作者：海边遗忘的时光_958 | 来源：互联网 | 2023-09-03 15:37

https:github.comfacebookresearchfastTextpython版本https:github.comsalestockfastText.py

""" https://github.com/facebookresearch/fastText python版本 https://github.com/salestock/fastText.py 这个是非官方的版本　现在已经不在使用了官方提供了Python版本　 https://github.com/facebookresearch/fastText/tree/master/python 现在用的都是官方的版本 """ import jieba import pandas as pd import randomcate_dic &＃61; {&＃39;technology&＃39;:1, &＃39;car&＃39;:2, &＃39;entertainment&＃39;:3, &＃39;military&＃39;:4, &＃39;sports&＃39;:5}df_technology &＃61; pd.read_csv("./data/technology_news.csv", encoding&＃61;&＃39;utf-8&＃39;) df_technology &＃61; df_technology.dropna()df_car &＃61; pd.read_csv("./data/car_news.csv", encoding&＃61;&＃39;utf-8&＃39;) df_car &＃61; df_car.dropna()df_entertainment &＃61; pd.read_csv("./data/entertainment_news.csv", encoding&＃61;&＃39;utf-8&＃39;) df_entertainment &＃61; df_entertainment.dropna()df_military &＃61; pd.read_csv("./data/military_news.csv", encoding&＃61;&＃39;utf-8&＃39;) df_military &＃61; df_military.dropna()df_sports &＃61; pd.read_csv("./data/sports_news.csv", encoding&＃61;&＃39;utf-8&＃39;) df_sports &＃61; df_sports.dropna()technology &＃61; df_technology.content.values.tolist()[1000:21000] car &＃61; df_car.content.values.tolist()[1000:21000] entertainment &＃61; df_entertainment.content.values.tolist()[:20000] military &＃61; df_military.content.values.tolist()[:20000] sports &＃61; df_sports.content.values.tolist()[:20000]stopwords&＃61;pd.read_csv("data/stopwords.txt",index_col&＃61;False,quoting&＃61;3,sep&＃61;"\t",names&＃61;[&＃39;stopword&＃39;], encoding&＃61;&＃39;utf-8&＃39;) stopwords&＃61;stopwords[&＃39;stopword&＃39;].values

""" fasttext的无监督的词向量训练 https://github.com/facebookresearch/fastText/tree/master/python """ import fasttextcate_dic &＃61; {&＃39;technology&＃39;:1, &＃39;car&＃39;:2, &＃39;entertainment&＃39;:3, &＃39;military&＃39;:4, &＃39;sports&＃39;:5}def preprocess_text_unsupervised(content_lines, sentences, category):for line in content_lines:try:segs&＃61;jieba.lcut(line)segs &＃61; filter(lambda x:len(x)>1, segs)segs &＃61; filter(lambda x:x not in stopwords, segs)sentences.append(" ".join(segs))except Exception:print (line)continue #生成无监督训练数据 sentences &＃61; []preprocess_text_unsupervised(technology, sentences, cate_dic[&＃39;technology&＃39;]) preprocess_text_unsupervised(car, sentences, cate_dic[&＃39;car&＃39;]) preprocess_text_unsupervised(entertainment, sentences, cate_dic[&＃39;entertainment&＃39;]) preprocess_text_unsupervised(military, sentences, cate_dic[&＃39;military&＃39;]) preprocess_text_unsupervised(sports, sentences, cate_dic[&＃39;sports&＃39;])print ("writing data to fasttext unsupervised learning format...") out &＃61; open(&＃39;unsupervised_train_data.txt&＃39;, &＃39;wb&＃39;) for sentence in sentences:out.write(sentence.encode(&＃39;utf8&＃39;)&＃43;b"\n") print("done!") import fasttext# Skipgram model : skmodel &＃61; fasttext.train_unsupervised(&＃39;unsupervised_train_data.txt&＃39;, model&＃61;&＃39;skipgram&＃39;)# or, cbow model : cbowmodel &＃61; fasttext.train_unsupervised(&＃39;unsupervised_train_data.txt&＃39;, model&＃61;&＃39;cbow&＃39;)

gensim训练词向量　

import gensim """ 对比gensim的word2vec """model &＃61; gensim.models.Word2Vec(sentences, size&＃61;100, window&＃61;5, min_count&＃61;5, workers&＃61;4) model.save("gensim_word2vec.model")

推荐阅读

java
深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例

深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例 ... [详细]

蜡笔小新 2024-11-07 20:50:46
range
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
java
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
java
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
java
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
chat
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
get
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
go
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
java
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
java
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
java
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
range
探讨Redis的最佳应用场景

本文将深入探讨Redis在不同场景下的最佳应用，包括其优势和适用范围。 ... [详细]

蜡笔小新 2024-11-13 12:35:53
get
Pythonmysql数据库

importpymysql#一、直接连接mysql数据库'''coonpymysql.connect(host'192.168.*.*',u ... [详细]

蜡笔小新 2024-11-12 16:51:59
chat
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
cmd
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44

海边遗忘的时光_958

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章