热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python实现gensim.word2vec模型训练实例

word2vec在NLP领域的运用比较多,最近看了网上的例子觉得挺有意思的,就自己动手实践了一下。简单总结:所谓的wordvector,就是指将单词向量化,将某个单词用特定的向量来

word2vec在NLP领域的运用比较多,最近看了网上的例子觉得挺有意思的,就自己动手实践了一下。

简单总结:

所谓的word vector,就是指将单词向量化,将某个单词用特定的向量来表示。将单词转化成对应的向量以后,就可以将其应用于各种机器学习的算法中去。一般来讲,词向量主要有两种形式,分别是稀疏向量和密集向量。

所谓稀疏向量,又称为one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小N,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的索引[1]。举例来说,如果有一个词典[“面条”,”方便面”,”狮子”],那么“面条”对应的词向量就是[1,0,0],“方便面”对应的词向量就是[0,1,0]。这种表示方法不需要繁琐的计算,简单易得,但是缺点也不少,比如长度过长(这会引发维数灾难),以及无法体现出近义词之间的关系,比如“面条”和“方便面”显然有非常紧密的关系,但转化成向量[1,0,0]和[0,1,0]以后,就看不出两者有什么关系了,因为这两个向量相互正交。当然了,用这种稀疏向量求和来表示文档向量效果还不错,清华的长文本分类工具THUCTC使用的就是此种表示方法

至于密集向量,又称distributed representation,即分布式表示。最早由Hinton提出,可以克服one-hot representation的上述缺点,基本思路是通过训练将每个词映射成一个固定长度的短向量,所有这些向量就构成一个词向量空间,每一个向量可视为该空间上的一个点[1]。此时向量长度可以自由选择,与词典规模无关。这是非常大的优势。还是用之前的例子[“面条”,”方便面”,”狮子”],经过训练后,“面条”对应的向量可能是[1,0,1,1,0],而“方便面”对应的可能是[1,0,1,0,0],而“狮子”对应的可能是[0,1,0,0,1]。这样“面条”向量乘“方便面”=2,而“面条”向量乘“狮子”=0 。这样就体现出面条与方便面之间的关系更加紧密,而与狮子就没什么关系了。这种表示方式更精准的表现出近义词之间的关系,比之稀疏向量优势很明显。可以说这是深度学习在NLP领域的第一个运用(虽然我觉得并没深到哪里去)

回过头来看word2vec,其实word2vec做的事情很简单,大致来说,就是构建了一个多层神经网络,然后在给定文本中获取对应的输入和输出,在训练过程中不断修正神经网络中的参数,最后得到词向量。

训练模型主要步骤包括:

第一节:读取文件

import jieba,re,os
from gensim.models import word2vec
import logging
#jieba.load_userdict("data\\userdict.txt")
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO,filename='test_01.log')
filename = 'test_01.txt' #测试文本
pre,ext = os.path.splitext(filename) #输入文件分开前缀,后缀 pre=test_01 ext=.txt
corpus = pre + '_seg' + ext #训练语料为按行分词后的文本文件 corpus=test_01_seg.txt
fin = open(filename,encoding='utf8').read().strip(' ').strip('\n').replace('\n\n','\n') #strip()取出首位空格,和换行符,用\n替换\n\n
stopwords = set(open('test_01停用词.txt',encoding='utf8').read().strip('\n').split('\n')) #读入停用词

对日志处理,logging.basiConfig函数的各个参数可以参考:

  1. logging.basicConfig函数各参数:  
  2. filename: 指定日志文件名  
  3. filemode: 和file函数意义相同,指定日志文件的打开模式,’w’或’a’  
  4. format: 指定输出的格式和内容,format可以输出很多有用信息,如上例所示:  
  5.  %(levelno)s: 打印日志级别的数值  
  6.  %(levelname)s: 打印日志级别名称  
  7.  %(pathname)s: 打印当前执行程序的路径,其实就是sys.argv[0]  
  8.  %(filename)s: 打印当前执行程序名  
  9.  %(funcName)s: 打印日志的当前函数  
  10.  %(lineno)d: 打印日志的当前行号  
  11.  %(asctime)s: 打印日志的时间  
  12.  %(thread)d: 打印线程ID  
  13.  %(threadName)s: 打印线程名称  
  14.  %(process)d: 打印进程ID  
  15.  %(message)s: 打印日志信息  
  16. datefmt: 指定时间格式,同time.strftime()  
  17. level: 设置日志级别,默认为logging.WARNING  
  18. stream: 指定将日志的输出流,可以指定输出到sys.stderr,sys.stdout或者文件,默认输出到sys.stderr,当stream和filename同时指定时,stream被忽略 

第二:分词,将训练文本中的词做处理,不能包含停用词中的词,以及长度少于等于1的词,去标点,

所谓停用词,就是出现频率太高的词,如逗号,句号等等,以至于没有区分度。

text = ' '.join([x for x in jieba.lcut(fin) if x not in stopwords and len(x)>1 and x != '\n']) #去掉停用词中的词,去掉长度小于等于1的词
print(text)
results = re.sub('[()::?“”《》,。!·、\d ]+',' ',text) #去标点
open(corpus,'w+',encoding='utf8').write(results) #按行分词后存为训练语料

第三:用预处理好的语料 训练模型

#3.训练模型
sentences = word2vec.LineSentence(corpus) # 加载语料,LineSentence用于处理分行分词语料
#sentences1 = word2vec.Text8Corpus(corpus) #用来处理按文本分词语料
#print('=--=-=-=-=-=',sentences)
model = word2vec.Word2Vec(sentences, size=12,window=25,min_count=2,workers=5,sg=1,hs=1) #训练模型就这一句话 去掉出现频率小于2的词
# http://blog.csdn.net/szlcw1/article/details/52751314 训练skip-gram模型; 第一个参数是训练预料,min_count是小于该数的单词会被踢出,默认值为5,size是神经网络的隐藏层单元数,在保存的model.txt中会显示size维的向量值。默认是100。默认window=5

第四:保存模型

# 4保存模型,以便重用
model.save("test_01.model") #保存模型
model.wv.save_word2vec_format('test_01.model.txt','test_01.vocab.txt',binary=False) # 将模型保存成文本,model.wv.save_word2vec_format()来进行模型的保存的话,会生成一个模型文件。里边存放着模型中所有词的词向量。这个文件中有多少行模型中就有多少个词向量。

第五:加载模型,验证模型

#5词向量验证
#加载训练好的模型
model = word2vec.Word2Vec.load("test_01.model") #加载训练好的语料模型
# 计算两个词的相似度/相关程度
# role1 = ['大圣','悟空','齐天大圣','师兄','老孙','行者','孙行者','孙悟空']
# role2 = ['天蓬','猪悟能','老猪','八戒','猪八戒','呆子']
role1 = ['天地','万物','一元']
role2 = ['天地','百岁']
pairs = [(x,y) for x in role1 for y in role2]

print(pairs) #[('天地', '天地'), ('天地', '百岁'), ('万物', '天地'), ('万物', '百岁'), ('一元', '天地'), ('一元', '百岁')]
#pairs = [('观音','猪悟能'),('观音','天蓬'),('观音','八戒'),('呆子','八戒'),('天蓬','嫦娥'),('天蓬','大圣'),('天蓬','卷帘'),('八戒','姐姐')]
for pair in pairs:
print("> [%s]和[%s]的相似度为:" % (pair[0],pair[1]), model.similarity(pair[0], pair[1])) # 预测相似性

# 计算某个词的相关词列表
figures = ['如来','西天','观音','老君','师父','老孙','八戒','沙和尚','南天门','王母','天王']
for figure in figures:
print("> 和[%s]最相关的词有:\n" % figure, '\n'.join([x[0].ljust(4,' ')+str(x[1]) for x in model.most_similar(figure, topn=10)]),sep='') # 默认10个最相关

结果:

《python实现gensim.word2vec模型训练实例》《python实现gensim.word2vec模型训练实例》

《python实现gensim.word2vec模型训练实例》

参考文章:

http://blog.csdn.net/u014595019/article/details/51884529

scikit-learn文本特征提取之TfidfVectorizer   :

    http://blog.csdn.net/pipisorry/article/details/41957763

    http://blog.csdn.net/pipisorry/article/details/41957763


推荐阅读
  • 超级简单加解密工具的方案和功能
    本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头,并根据特定长度进行加密,加密后将加密部分写入源文件。同时,该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法,并给出了Python代码示例。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 本文介绍了一个Python函数same_set,用于判断两个相等长度的数组是否包含相同的元素。函数会忽略元素的顺序和重复次数,如果两个数组包含相同的元素,则返回1,否则返回0。文章还提供了函数的具体实现代码和样例输入输出。 ... [详细]
  • 本文介绍了使用readlink命令获取文件的完整路径的简单方法,并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]
  • 基于词向量计算文本相似度1.测试数据:链接:https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码:f4vx2.实验代码:imp ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 怎么在PHP项目中实现一个HTTP断点续传功能发布时间:2021-01-1916:26:06来源:亿速云阅读:96作者:Le ... [详细]
  • tcpdump 4.5.1 crash 深入分析
    tcpdump 4.5.1 crash 深入分析 ... [详细]
  • 颜色迁移(reinhard VS welsh)
    不要谈什么天分,运气,你需要的是一个截稿日,以及一个不交稿就能打爆你狗头的人,然后你就会被自己的才华吓到。------ ... [详细]
  • 正则表达式及其范例
    为什么80%的码农都做不了架构师?一、前言部分控制台输入的字符串,编译成java字符串之后才送进内存,比如控制台打\, ... [详细]
  • 前言:拿到一个案例,去分析:它该是做分类还是做回归,哪部分该做分类,哪部分该做回归,哪部分该做优化,它们的目标值分别是什么。再挑影响因素,哪些和分类有关的影响因素,哪些和回归有关的 ... [详细]
  • 在本教程中,我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后,我们将看到使用Flask创建AP ... [详细]
  • 数学建模入门python绘制频率直方图
    文章目录例题数据处理绘图操作调用演示例题数据处理将以下的数据保存到磁盘上17275169551696417165167471716216867165521696216865 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
author-avatar
hsc686
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有