词表征2：word2vec、CBoW、SkipGram、NegativeSampling、HierarchicalSoftmax

作者：愛攝影的新胖 | 来源：互联网 | 2023-10-11 13:05

原文地址：https:www.jianshu.comp5a896955abf02）基于迭代的方法直接学相较于基于SVD的方法直接捕获所有共现值的做法，基于迭代的方法一次只捕获一个窗

原文地址：https://www.jianshu.com/p/5a896955abf0

2）基于迭代的方法直接学

相较于基于SVD的方法直接捕获所有共现值的做法，基于迭代的方法一次只捕获一个窗口内的词间共现值。

好的语言模型中，有意义的句子高概率，无意义的句子即使语法正确也低概率。

在得到输入词向量和输出词向量后如何得到最终词向量？常取输入词向量(word2vec)、拼接、相加(GloVe)等。

主要有以下3种模型算法：

word2vec

GloVe

fastText

（三）word2vec

基本设计：1层隐藏层的神经网络结构，隐藏层使用线性激活函数。why?

一是因为快；二是因为训练词向量可以被认为是提取特征，后续可能会使用deep结构，现阶段没有必要deep。

技术分享图片

1、Continuous Bag of Words(CBoW)

根据上下文词预测中心词。

1）前向过程

技术分享图片

希望\(\hat{y}\)与\(y\)即\(x_c\)尽可能相同。

2）反向过程

技术分享图片

2、Skip-Gram

根据中心词预测上下文词。

引入strong/naive条件独立假设：给定中心词，所有输出词间完全独立。

1）前向过程

技术分享图片

2）反向过程

技术分享图片

CBoW和Skip-Gram都存在着的问题：代价函数中的softmax需要对\(|V|\)进行求和，时间复杂度为\(O(|V|)\)，当\(|V|\)很大时，代价很高。

解决方式：Negative Sampling和Hierarchical Softmax。

3、Negative Sampling

负采样的基本思想是用采样一些负例的方式近似代替遍历整个词汇。以\(P_n(w)\)的概率分布进行采样，\(P_n(w)\)与词汇词频相匹配。目前看，最佳\(P_n(w)=\frac{count(w)^{\frac{3}{4}}}{\sum_{w\in V}count(w)^{\frac{3}{4}}}\)，实现了低频词被采样概率的上升比例高于高频词。采样前，将长度为1的线段分成\(M\)等份，其中，\(M>>|V|\)。这样子可以保证每个词对应的线段都会被划分成不同的小块，\(M\)份的每一份都会落在某一个词对应的线段上。每个词对应的线段长度为\(len(w)=P_n(w)\)。采样时，从\(M\)个未知

中采样出\(Neg\)个位置即可，对应线段所属词即为负例词。word2vec中\(M\)默认为\(10^8\)，与Skip-Gram合作时，采样到中心词就跳过。

1）目标函数

技术分享图片

2）反向过程

（1）CBoW

技术分享图片

（2）Skip-Gram

技术分享图片

4、Hierarchical Softmax

Hierarchical Softmax中无词的输出表示，词为输出词的概率等于从根节点走到词叶子节点的概率，代价由\(O(|V|)\)变为\(O(log_2|V|)\)。Hierarchical Softmax中不更新每个词的输出词向量，更新的是二叉树上节点对应的向量。这个方法的速度由二叉树的构建方式以及词到叶子节点的分配方式决定。其中，Huffman树尤其适合，因为其分配给高频词短路径，使其花费更短时间被找到。

1）目标函数

技术分享图片

2）反向过程

（1）CBoW

技术分享图片

（2）Skip-Gram

技术分享图片

5、word2vec小结

1）CBoW vs Skip-Gram

CBoW更快一些。CBoW对于高频词效果较好，低频词常受到较少注意。窗口大小常5左右。

Skip-Gram更慢一些。Skip-Gram对于低频词效果更好，小数据下表现依旧好。窗口大小常10左右。

对于"Yesterday was really a ____ day."：

CBoW认为最可能是beautiful/nice，delightful受到较少注意；Skip-Gram则不会将delightful与beautiful/nice比较，而是作为一组新观测值。

2）Hierarchical Softmax vs Negative Sampling

Hierarchical Softmax

优点是对低频词的效果更好。因为表示低频词的叶子节点会不可避免地继承祖先节点的向量表示，这个祖先节点可能会受到其他高频词的影响。

缺点是如果所需要的输出词很生僻，得一直往下走很久。

Negative Sampling

对高频词效果更好。向量维度较低时效果更好，维度高时近似误差会比较大。

word2vec对句子进行处理时还采用了高频词亚采样的trick，其能够带来2～10倍的性能提升，并且能够提升低频词的表示精度。具体来说，\(w_i\)被丢弃的概率\(P(w_i)=1-\sqrt{\frac{sample}{freq(w_i)}}\)。\(sample\)常取值\(10^{-5}\)~\(10^{-3}\)，\(sample\)越小，达到相同的丢弃率所需的\(frequency\)则越小，即更多词会被丢弃。高频词亚采样的目的是以一定的概率拒绝高频词，使得低频词有更多的出境率。低频词被丢弃的概率低，高频词被丢弃的概率高。

推荐阅读

config
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
int
iOS开发中的UIView及其子类应用

本文介绍了用户界面（User Interface, UI）的基本概念，以及在iOS应用程序中UIView及其子类的重要性和使用方式。文章详细探讨了UIView如何作为用户交互的核心组件，以及它与其他UI控件和业务逻辑的关系。 ... [详细]

蜡笔小新 2024-11-23 16:25:09
int
线性表中的元素删除算法

本文探讨了线性表中元素的删除方法，包括顺序表和链表的不同实现策略，以及这些策略在实际应用中的性能分析。 ... [详细]

蜡笔小新 2024-11-23 16:14:36
int
深入解析Apache Mina开发指南

本文由chszs撰写，详细介绍了Apache Mina框架的核心开发流程及自定义协议处理方法。文章涵盖从创建IoService实例到协议编解码的具体步骤，适合希望深入了解Mina框架应用的开发者。 ... [详细]

蜡笔小新 2024-11-23 15:02:21
int
P3796 AC自动机强化版题解 - Aho-Corasick Algorithm

本文提供了一个关于AC自动机（Aho-Corasick Algorithm）的详细解析与实现方法，特别针对P3796题目进行了深入探讨。文章不仅涵盖了AC自动机的基本概念，还重点讲解了如何通过构建失败指针（fail pointer）来提高字符串匹配效率。 ... [详细]

蜡笔小新 2024-11-23 13:17:52
int
嵌入式系统实验：GPIO控制与按键响应

本报告记录了嵌入式软件设计课程中的第二次实验，主要探讨了使用KEIL V5开发环境和ST固件库进行GPIO控制及按键响应编程的方法。通过实际操作，加深了对嵌入式系统硬件接口编程的理解。 ... [详细]

蜡笔小新 2024-11-23 13:00:00
int
LeetCode 102 - 二叉树层次遍历详解

本文详细解析了LeetCode第102题——二叉树的层次遍历问题，提供了C++语言的实现代码，并对算法的核心思想和具体步骤进行了深入讲解。 ... [详细]

蜡笔小新 2024-11-23 12:14:28
int
JavaScript 中引号的多层嵌套使用技巧

本文详细介绍了在 JavaScript 编程中如何处理引号的多级嵌套问题，包括双引号、单引号以及转义字符的正确使用方法。 ... [详细]

蜡笔小新 2024-11-23 11:47:34
int
解决UIScrollView自动偏移问题的方法

本文介绍了一种有效的方法来解决在使用UIScrollView时出现的自动向下偏移的问题，通过调整特定的属性设置，可以确保滚动视图正常显示。 ... [详细]

蜡笔小新 2024-11-23 11:01:29
int
如何高效渲染JSON数据

本文介绍了在控制器中返回JSON结果的方法，并详细说明了如何利用jQuery处理和展示这些数据，为Web开发提供了实用的技巧。 ... [详细]

蜡笔小新 2024-11-23 10:41:31
int
重学前端学习笔记（二十四）HTML里的链接元素

笔记说明重学前端是程劭非（winter）【前手机淘宝前端负责人】在极客时间开的一个专栏，每天10分钟，重构你的前端知识体系& ... [详细]

蜡笔小新 2024-11-23 10:34:04
int
深入理解Awk文本处理工具

Awk是一款功能强大的文本分析与处理工具，尤其在数据解析和报告生成方面表现突出。它通过读取由换行符分隔的记录，并按照指定的字段分隔符来划分和处理这些记录，从而实现复杂的数据操作。 ... [详细]

蜡笔小新 2024-11-23 09:44:24
audio
深入解析Unity3D游戏开发中的音频播放技术

在游戏开发中，音频播放是提升玩家沉浸感的关键因素之一。本文将探讨如何在Unity3D中高效地管理和播放不同类型的游戏音频，包括背景音乐和效果音效，并介绍实现这些功能的具体步骤。 ... [详细]

蜡笔小新 2024-11-22 21:05:22
audio
深入理解C++中的自定义String类实现

本文探讨了一种常见的C++面试题目——实现自己的String类。通过此过程，不仅能够检验开发者对C++基础知识的掌握程度，还能加深对其高级特性的理解。文章详细介绍了如何实现基本的功能，如构造函数、析构函数、拷贝构造函数及赋值运算符重载等。 ... [详细]

蜡笔小新 2024-11-22 19:21:22
audio
CentOS 服务器自定义密码策略

随着Linux操作系统的广泛使用，确保用户账户及系统安全变得尤为重要。用户密码的复杂性直接关系到系统的整体安全性。本文将详细介绍如何在CentOS服务器上自定义密码规则，以增强系统的安全性。 ... [详细]

蜡笔小新 2024-11-22 19:15:42

愛攝影的新胖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章