从概念到实战，深度解析「simpler

作者：hojk | 来源：互联网 | 2023-09-11 08:57

雷锋网(公众号：雷锋网)AI科技评论按，本文为广州火焰科技投稿，作者苏剑林。以下为正文内容：如果问我哪个是最方便、最好用的词向量模型，我觉得应该是word2vec，但如果问我哪个是

雷锋网(公众号：雷锋网) AI 科技评论按，本文为广州火焰科技投稿，作者苏剑林。以下为正文内容：

如果问我哪个是最方便、最好用的词向量模型，我觉得应该是 word2vec，但如果问我哪个是最漂亮的词向量模型，我不知道，我觉得各个模型总有一些不足的地方。且不说试验效果好不好（这不过是评测指标的问题），就单看理论也没有一个模型称得上漂亮的。

本文讨论了一些大家比较关心的词向量的问题，很多结论基本上都是实验发现的，缺乏合理的解释，包括：

如何去构造一个词向量模型？

为什么用余弦值来做近义词搜索？

向量的内积又是什么含义？

词向量的模长有什么特殊的含义？

为什么词向量具有词类比性质？（国王-男人+女人=女王）

得到词向量后怎么构建句向量？词向量求和作为简单的句向量的依据是什么？

这些讨论既有其针对性，也有它的一般性，有些解释也许可以直接迁移到对 glove 模型和 skip gram 模型的词向量性质的诠释中，读者可以自行尝试。

围绕着这些问题的讨论，本文提出了一个新的类似 glove 的词向量模型，这里称之为 simpler glove，并基于斯坦福的 glove 源码进行修改，给出了本文的实现，具体代码在 Github 上。

为什么要改进 glove？可以肯定的是 glove 的思想是很有启发性的，然而尽管它号称媲美甚至超越 word2vec，但它本身却是一个比较糟糕的模型（后面我们也会解释它为什么糟糕），因此就有了改进空间。

一、对语言进行建模

1、从条件概率到互信息

目前，词向量模型的原理基本都是词的上下文的分布可以揭示这个词的语义，就好比“看看你跟什么样的人交往，就知道你是什么样的人”，所以词向量模型的核心就是对上下文的关系进行建模。

除了 glove 之外，几乎所有词向量模型都是在对条件概率 P(w|context) 进行建模，比如 Word2Vec 的 skip gram 模型就是对条件概率 P(w2|w1) 进行建模。

但这个量其实是有些缺点的，首先它是不对称的，即 P(w2|w1) 不一定等于P(w1|w2)，这样我们在建模的时候，就要把上下文向量和目标向量区分开，它们不能在同一向量空间中；其次，它是有界的、归一化的量，这就意味着我们必须使用 softmax 等方法将它压缩归一，这造成了优化上的困难。

事实上，在NLP的世界里，有一个更加对称的量比单纯的 P(w2|w1) 更为重要，那就是：

这个量的大概意思是“两个词真实碰面的概率是它们随机相遇的概率的多少倍”，如果它远远大于 1，那么表明它们倾向于共同出现而不是随机组合的，当然如果它远远小于 1，那就意味着它们俩是刻意回避对方的。这个量在 NLP 界是举足轻重的，我们暂且称它为“相关度“，当然，它的对数值更加出名，大名为点互信息（Pointwise Mutual Information，PMI）：