word2vector一些问题及思考

作者：焦鹏666_479 | 来源：互联网 | 2023-08-25 14:58

本文是看了论文《DistributedRepresentationsofWordsandPhrasesandtheirCompositionality》的学习笔记。话不多说。贴上c

本文是看了论文《Distributed Representations of Words and Phrases and their Compositionality》的学习笔记。
话不多说。
贴上cbow 和skip-gram的示意图&＃xff0c;一个是以context预测word&＃xff0c;一个是word预测上下文。
这里写图片描述

听同学说业界主要用skip-gram加上negative sampling这一套。论文里面也主要涉及到skip-gram

skip-gram的优化目标。要是word预测context的概率最大。
这里写图片描述

再贴上Hierarchical Softmax的公式&＃xff0c;看起来复杂其实&＃xff0c;就是树形结构&＃xff0c;选择左右根据sigmoid的值。但是为什么说它是 “多个logistic regression”&＃xff08;有人有好的解释的话&＃xff0c;感激不尽&＃xff09;&＃xff0c;这点笔者还是没找到能够说服自己的答案。只能浅显的理解为&＃xff0c;word有了&＃xff0c;context中的word也就有了&＃xff0c;所以树结构中每次向左向右看做一次分类&＃xff0c;目标词所在的类别相当于逻辑回归中的正确类别。

有朋友问为什么要用而且能用Hierarchical Softmax&＃xff0c;我的回答是要用是因为可以降低复杂度&＃xff0c;能用我感觉是因为这种结构能够使概率加起来为1吧。我们的目标是使得p&＃xff08;context | word&＃xff09;的概率最大&＃xff0c;我们只是换了一种方式定义这个概率。但是目标没变。

接下来就是负采样了。
感谢linger&＃xff0c;懒得去论文中截图了。全是盗的她的图。
http://blog.csdn.NET/lingerlanlan/article/details/38048335
Negative-Sampling&＃xff08;NEG&＃xff09;基于skip-gram模型&＃xff0c;但实际上是优化另一个目标函数&＃xff0c;Mikolov说NEG是从NCE&＃xff08;Noise Contrastive Estimation&＃xff09;简化而来&＃xff0c;用于提高训练速度&＃xff0c;也可以改善词向量的质量。相比于分层Softmax&＃xff0c;NEG使用的方式是随机负采样&＃xff0c;而不是Huffman树。
这里写图片描述
负采样换了一个目标函数。
函数前半部分表示一个正样本&＃xff0c;后半部分是若干个负样本。
怎样理解负采样&＃xff0c;目标函数的形式为何长这样&＃xff0c;建议去看看下面的解释。
http://qiancy.com/2016/08/24/word2vec-negative-sampling/?utm_source&＃61;tuicool&utm_medium&＃61;referral

接下来介绍论文中提到的两个训练过程中的trick。
高频词二次抽样

the vector representations of frequent words do not change significantly

after training on several million examples.

经过很多次迭代训练之后&＃xff0c;再次更新的时候高频词的向量不应该改变太大。

To counter the imbalance between the rare and frequent words, we used a simple subsampling approach:

each word wi in the training set is discarded with probability computed by the formula
这里写图片描述
为了平衡低频词和高频词&＃xff0c;使用了一种二次抽样的方法。对于每个词语&＃xff0c;如果由以下公式算出的概率少某个值&＃xff0c;则丢弃。

其中&＃xff0c;t是一个设定的阈值&＃xff0c;f是词频。

希望大家批评指正&＃xff0c;希望大家批评指正&＃xff0c;希望大家批评指正。

推荐阅读

header
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
go
如何在没有提交按钮的情况下提交HTML表单？

探讨了在HTML表单中使用元素代替进行表单提交的方法。 ... [详细]

蜡笔小新 2024-11-22 17:48:42
window
WPF菜单控件前景与背景颜色设置指南

尽管在WPF中工作了一段时间，但在菜单控件的样式设置上遇到了一些基础问题，特别是关于如何正确配置前景色和背景色。 ... [详细]

蜡笔小新 2024-11-22 15:30:54
window
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
audio
深入解析Unity3D游戏开发中的音频播放技术

在游戏开发中，音频播放是提升玩家沉浸感的关键因素之一。本文将探讨如何在Unity3D中高效地管理和播放不同类型的游戏音频，包括背景音乐和效果音效，并介绍实现这些功能的具体步骤。 ... [详细]

蜡笔小新 2024-11-22 21:05:22
object
解析 .NET 中的 AJAX 技术

Asynchronous JavaScript and XML (AJAX) 的流行很大程度上得益于 Google 在其产品如 Google Suggest 和 Google Maps 中的应用。本文将深入探讨 AJAX 在 .NET 环境下的工作原理及其实现方法。 ... [详细]

蜡笔小新 2024-11-22 18:18:57
window
JavaScript 跨域解决方案详解

本文详细介绍了JavaScript在不同域之间进行数据传输或通信的技术，包括使用JSONP、修改document.domain、利用window.name以及HTML5的postMessage方法等跨域解决方案。 ... [详细]

蜡笔小新 2024-11-22 16:27:56
object
ASP.NET 进度条实现详解

本文介绍了如何在ASP.NET中使用HTML和JavaScript创建一个动态更新的进度条，并通过Default.aspx页面进行展示。 ... [详细]

蜡笔小新 2024-11-22 15:00:08
config
MITM（中间人攻击）原理及防范初探（二）

上一篇文章MITM（中间人攻击）原理及防范初探（一）给大家介绍了利用ettercap进行arp欺骗及劫持明文口令，后来我发现好友rootoorotor的文章介绍比我写的更透彻，所以基础利用大家可以参看 ... [详细]

蜡笔小新 2024-11-22 12:46:06
java
使用RxJS在AngularJS中区分单击与拖动操作

本文探讨了如何利用RxJS库在AngularJS应用中实现对用户单击和拖动操作的精确区分，特别是在调整区域大小的场景下。 ... [详细]

蜡笔小新 2024-11-22 11:56:41
less
Windows蓝屏故障代码解析与解决方法

在测试软件或进行系统维护时，有时会遇到电脑蓝屏的情况，即便使用了沙盒环境也无法完全避免。本文将详细介绍常见的蓝屏错误代码及其解决方案，帮助用户快速定位并解决问题。 ... [详细]

蜡笔小新 2024-11-22 11:46:53
config
Fiddler 安装与配置指南

本文详细介绍了Fiddler的安装步骤及配置方法，旨在帮助用户顺利抓取用户Token。文章还涵盖了一些常见问题的解决方案，以确保安装过程顺利。 ... [详细]

蜡笔小新 2024-11-22 11:36:57
java
Android 中的布局方式之线性布局

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-22 11:20:34
int
Zabbix自定义监控与邮件告警配置实践

本文详细介绍了如何在Zabbix中添加自定义监控项目，配置邮件告警功能，并解决测试告警时遇到的邮件不发送问题。 ... [详细]

蜡笔小新 2024-11-22 08:33:19
bit
Delphi XE2 之 FireMonkey 入门(19) - TFmxObject 的子类们(表)

td{border:1pxsolid#808080;}参考:和FMX相关的类(表)TFmxObjectIFreeNotification ... [详细]

蜡笔小新 2024-11-21 22:35:24

焦鹏666_479

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章