当前位置: 开发笔记 > 编程语言 > 正文

wordembedding的模型与测试

作者：cutepingge | 来源：互联网 | 2023-09-18 17:57

模型text:Ilikedeeplearning.IlikeNLP.Ienjoyflying.one-hot缺点：高维度，稀疏性，相似度无法衡量co-occurrence优点：相似

模型

text:

I like deep learning. I like NLP. I enjoy flying.

one-hot

《word embedding的模型与测试》
缺点：高维度，稀疏性，相似度无法衡量

co-occurrence

《word embedding的模型与测试》
优点：相似度一定程度上可以衡量
缺点：高维度，稀疏性

SVD（降维）

观察发现，前10%甚至前10%的奇异值的和占了全部奇异值之和的99%以上
《word embedding的模型与测试》
优点：改善了高纬度，稀疏性，相似度无法衡量问题
缺点：复杂度高 O(mn2)

word2vec

对原始的NNLM模型做如下改造：

移除前向反馈神经网络中非线性的hidden layer，直接将中间层的embedding layer与输出层的softmax layer连接；
忽略上下文环境的序列信息：输入的所有词向量均汇总到同一个embedding layer；
将future words纳入上下文环境

从数学上看，CBoW模型等价于一个词袋模型的向量乘以一个embedding矩阵，从而得到一个连续的embedding向量。这也是CBoW模型名称的由来。

CBoW模型依然是从context对target word的预测中学习到词向量的表达。反过来，我们能否从target word对context的预测中学习到word vector呢？答案显然是可以的：这个模型被称为Skip-gram模型（名称源于该模型在训练时会对上下文环境里的word进行采样）。

《word embedding的模型与测试》

如果将Skip-gram模型的前向计算过程写成数学形式，我们得到：

《word embedding的模型与测试》
Skip-gram模型的本质是计算输入word的input vector与目标word的output vector之间的余弦相似度，并进行softmax归一化。

疑问：为什么不用NNLM去训练词向量
答：NNLM存在的几个问题。NNLM的训练太慢了，NNLM模型只能处理定长的序列。
原始的NNLM模型的训练其实可以拆分成两个步骤：
1.用一个简单模型训练出连续的词向量；
2.基于词向量的表达，训练一个连续的Ngram神经网络模型。
word2vec实现的就是第一步。

疑问：模型输入的词向量都是随机的，如何训练模型的同时，训练这些词向量的？
答：
会先跟据语料建立一个词汇表，所有的训练样本应该是（前n-1个词的索引，第n个词的索引），对应一个C表，|V|*m, m是词向量的维度，|V|是词汇表的词量。训练的时候，更新语言模型的同时，也更新C表，这样，每个词对应的词向量就更新了。

手绘word2vec实现原理图，手残见谅。
《word embedding的模型与测试》
首先，它的结构就是一个三层网络——输入层、隐层（也可称为映射层），输出层。

输入层读入窗口内的词，将它们的向量（K维，初始随机）加和在一起，形成隐藏层K个节点。输出层是一个巨大的二叉树，叶节点代表语料里所有的词（语料含有V个独立的词，则二叉树有|V|个叶节点）。而这整颗二叉树构建的算法就是Huffman树。这样，对于叶节点的每一个词，就会有一个全局唯一的编码，形如”010011”。我们可以记左子树为1，右子树为0。接下来，隐层的每一个节点都会跟二叉树的内节点有连边，于是对于二叉树的每一个内节点都会有K条连边，每条边上也会有权值。

在训练阶段，当给定一个上下文，要预测中心词(Wn)的时候，实际上我们知道要的是哪个词(Wn)，而Wn是肯定存在于二叉树的叶子节点的，因此它必然有一个二进制编号，如”010011”，那么接下来我们就从二叉树的根节点一个个地去便利，而这里的目标就是预测这个词的二进制编号的每一位！即对于给定的上下文，我们的目标是使得预测词的二进制编码概率最大。形象地说，我们希望（词向量和）与（节点相连边的权重）经过logistic计算得到的概率尽量接近0；在第二层，概率尽量接近1……这么一直下去，我们把一路上计算得到的概率相乘，即得到目标词Wn在当前网络下的概率(P(Wn))，那么对于当前这个sample的残差就是1-P(Wn)。于是就可以SGD优化各种权值了。

按照目标词的二进制编码计算到最后的概率值就是归一化的，这也是为啥它被称作hierarchical softmax的原因。传统的softmax，就需要对|V|中的每一个词都算一遍，这个过程时间复杂度是O(|V|)的。而使用了二叉树（如word2vec中的Huffman树），其时间复杂度就降到了O(log2(|V|))，速度大大地加快了。

Glove

全局的共现矩阵求法举例：
《word embedding的模型与测试》
公式：

测试

分为内部测试和外部测试：
内部测试：测试语法，语义，词义。
论文实验结果：
《word embedding的模型与测试》
本实验结果：

内部测试：NER（命名实体识别）
实验结果：

结果

经过实验对比，三个模型的效果同等条件下差别不大，最终选择CBOW模型训练，原因如下：
1：CBOW有成熟的开源工具包gensim.word2vec，可以提供分布式训练
2：word2vec可以在线训练，glove不可以
3：CBOW比SG训练速度快

word2vec训练方法

从英文维基百科下载了数据（时间2015-03-01,大概11g）：
https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
目前word2vec是支持online的，但是，再训练的语料要和之前的语料分布相同。

import multiprocessing from gensim.models import Word2Vec def train_model1(corpusfilename, modelfilenamebin, modelfilenametxt, size): """训练一个词向量模型""" model = Word2Vec(MySentences(corpusfilename), hs=1, size=size, window=5, min_count=10, iter=10, workers=multiprocessing.cpu_count()) model.save(modelfilenamebin) model.wv.save_word2vec_format(modelfilenametxt, binary=False)

参数解释：
1.sg=1是skip-gram算法，对低频词敏感；默认sg=0为CBOW算法。
2.size是输出词向量的维数，值太小会导致词映射因为冲突而影响结果，值太大则会耗内存并使算法计算变慢，一般值取为100到300之间。
3.window是句子中当前词与目标词之间的最大距离，3表示在目标词前看3-b个词，后面看b个词（b在0-3之间随机）。
4.min_count是对词进行过滤，频率小于min-count的单词则会被忽视，默认值为5。
5.negative和sample可根据训练结果进行微调，sample表示更高频率的词被随机下采样到所设置的阈值，默认值为1e-3。
6.workers控制训练的并行，此参数只有在安装了Cpython后才有效，否则只能使用单核。

word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本，我们选取一个上下文窗口和一个中心词，并基于这个中心词去预测窗口里其他词出现的概率。因此，word2vec模型可以方便地从新增语料中学习到新增词的向量表达，是一种高效的在线学习算法（online learning）。

def retrain(corpusfilename,modelfilenamebin,remodelfilenamebin,remodelfilenametxt): model = Word2Vec.load(modelfilenamebin) model.build_vocab(MySentences(corpusfilename), update=True) model.train(MySentences(corpusfilename), total_examples=model.corpus_count, epochs=10) model.save(remodelfilenamebin) model.wv.save_word2vec_format(remodelfilenametxt, binary=False)参考文献

Distributed Representations of Words and Phrases and their Compositionality
Efficient Estimation of Word Representations in Vector Space
GloVe Global Vectors forWord Representation
参考了一些博客网站，不一一列表，但非常感谢

推荐阅读

sum
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
get
JavaScript 实战与基础案例解析

本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例，涵盖从入门到进阶的各个阶段，帮助读者全面提升JavaScript编程能力。 ... [详细]

蜡笔小新 2024-12-24 16:36:52
case
基于机器学习的人脸识别系统实现

本文介绍了一种使用机器学习技术构建人脸识别系统的实践案例。通过结合Python编程语言和深度学习框架，详细展示了从数据预处理到模型训练的完整流程，并提供了代码示例。 ... [详细]

蜡笔小新 2024-12-22 16:01:32
sum
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
get
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
sum
视觉Transformer综述

本文综述了视觉Transformer在计算机视觉领域的应用，从原始Transformer出发，详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构，还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]

蜡笔小新 2024-11-22 19:53:16
int
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
int
解决苹果手机中Vue网页弹窗input失去焦点导致页面上移的问题

本文探讨了在苹果手机上使用Vue开发的网页弹窗时，input元素失去焦点后页面意外上移的问题，并提供了详细的解决方案和优化建议。 ... [详细]

蜡笔小新 2024-12-25 16:13:18
int
Python并行处理：提升数据处理速度的方法与实践

本文探讨了如何利用Python进行数据处理的并行化，通过介绍Numba、多进程处理以及Pandas DataFrame上的并行操作等技术，旨在帮助开发者有效提高数据处理效率。 ... [详细]

蜡笔小新 2024-12-14 11:30:03
int
Linux环境下通过PHP SMTP发送邮件的配置指南

本文详细介绍了如何在Linux系统中配置PHP通过SMTP发送邮件，包括防火墙设置、端口检查与释放、IPv6到IPv4的转换、DNS缓存刷新以及PHP相关配置等步骤。 ... [详细]

蜡笔小新 2024-12-08 15:50:20
int
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
int
京东AI创新之路：周伯文解析京东AI战略的独特之处

2018年4月15日，京东在北京举办了人工智能创新峰会，会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果，还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]

蜡笔小新 2024-12-06 22:57:11
int
Windows 多进程通信API总结

在一个大型的应用系统中，往往需要多个进程相互协作，进程间通信(IPC,InterProcessCommunication)就显得比较重要了。在Linux系统中，有很多种IPC机制， ... [详细]

蜡笔小新 2024-11-30 13:13:03
python
探索语音处理新领域：pzh-speech工具的开发历程

本文由技术爱好者痞子衡撰写，详细介绍了一款名为pzh-speech的语音处理工具的开发背景与核心技术。该工具旨在简化语音处理流程，为开发者提供一个强大的开源解决方案。 ... [详细]

蜡笔小新 2024-11-26 16:27:12
python
cnn多实例attention选择的句子关系分类提取Neural Relation Extraction with Selective Attention over Instances

作者提供代码在https:github.comthunlpOpenNRE网址主要技术：文章主要是通过一对实体和对应的多个包含实体对的句子实例作为训练数据集ÿ ... [详细]

蜡笔小新 2024-11-25 13:23:21

cutepingge

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章