热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

word2vecpython实现_NLPword2vec的python实现

importloggingfromgensim.modelsimportword2vecimportmultiprocessing#配置日志logging.basicConfig(

import logging

from gensim.models import word2vec

import multiprocessing

# 配置日志

logging.basicConfig(format='%(asctime)s - %(levelname)s - %(message)s', level=logging.INFO)

# 评论的二维数组,其中的一维数组是每条评论分词之后的list

sentences = [['电池', '续航', '不错'], ['手机', '电池', '容量', '大']]

# 模型路径

model_path = '../model/study_w2v'

# 词向量训练, 并保存模型

model = word2vec.Word2Vec(size=128, min_count=3, window=5, workers=multiprocessing.cpu_count(), sg=1)

model.build_vocab(sentences)

model.train(sentences, total_examples=model.corpus_count, epochs=model.epochs)

model.save(model_path)

# 加载模型

model = word2vec.Word2Vec.load(model_path)

# 查看模型的词表中词 频度和索引

for key, value in model.wv.vocab.items(): # model.wv.vocab是一个dict

print(key, value)

# 判断模型词表中是否存在某个词

print('手机' in model.wv.vocab)

# 获得模型中词表的词数

print(len(model.wv.vocab))

# 获取模型中的语料数

print(model.corpus_count)

# 获取词向量的维度

print(model.wv.vector_size)

# # 获取某个词的词向量, 先判断再获取

noun1 = '手机'

if noun1 in model.wv.vocab:

print(model.wv[noun1])

# 计算两个词的相似度(余弦距离),结果越大越相似

noun2 = '电池'

noun3 = '电量'

noun4 = '续航'

print(model.wv.similarity(noun1, noun2))

print(model.wv.similarity(noun3, noun2))

print(model.wv.similarity(noun4, noun2))

# 计算两个词的距离, 结果越大越不相似, 1-similarity

print(model.wv.distance(noun1, noun2))

print(model.wv.distance(noun3, noun2))

print(model.wv.distance(noun4, noun2))

# 取给定词最相近的topn个词

print(model.wv.most_similar(noun1))

# 找出与其他词差异最大的词

print(model.wv.doesnt_match([noun1, noun2, noun3, noun4]))

# 增量训练, 增加预料在原来模型的基础上训练

new_sentences = [['手机', '拍照', '效果', '不错'], ['相机', '美颜', '效果', '好']]

model.build_vocab(sentences=new_sentences, update=True)

model.train(sentences=new_sentences, total_examples=model.corpus_count, epochs=model.iter)

model.save(model_path)



推荐阅读
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文详细介绍了PHP中与URL处理相关的三个函数:http_build_query、parse_str和查询字符串的解析。通过示例和语法说明,讲解了这些函数的使用方法和作用,帮助读者更好地理解和应用。 ... [详细]
  • 本文介绍了在CentOS上安装Python2.7.2的详细步骤,包括下载、解压、编译和安装等操作。同时提供了一些注意事项,以及测试安装是否成功的方法。 ... [详细]
  • WhenIusepythontoapplythepymysqlmoduletoaddafieldtoatableinthemysqldatabase,itdo ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因,文件需要分割成多个部分发送,因此无法按顺序接收。文章中提供了merge2.php的源码,通过使用shuffle函数打乱文件读取顺序,实现了乱序合并文件的功能。同时,还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]
  • 本文介绍了为什么要使用多进程处理TCP服务端,多进程的好处包括可靠性高和处理大量数据时速度快。然而,多进程不能共享进程空间,因此有一些变量不能共享。文章还提供了使用多进程实现TCP服务端的代码,并对代码进行了详细注释。 ... [详细]
  • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • 先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
author-avatar
临沂李晓楠
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有