热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Glove与Attention机制资料的整理

1Glove:论文出处:Python迁移学习P208-209这本书讲解Gl

1 Glove:


论文出处&#xff1a;<>


  • Python 迁移学习P208-209

这本书讲解Glove部分需要关注的一点是&#xff1a;

词汇表外&#xff08;Out-Of-Vocabulary OOV&#xff09; 这一概念

实现步骤&#xff1a;首先创建一个庞大的单词-上下文&#xff08;Word-Context&#xff09;共现矩阵

WC&#61;WF(Word-Feature)*FC(Feature-Content)

Word2Vec模型和Glove模型在工作方式上非常相似&#xff0c;它们的目的都是构建一个向量空间&#xff0c;每个词的位置都基于上下文和语义并且受到其相邻词的影响。

Word2vec模型从单词共现对的本地单个事例开始&#xff0c;而Glove模型从整个语料库中所有单词的全局汇总共现统计开始


  • 词向量经典模型&#xff1a;从word2vec、gove、ELMO到BERT

参考链接&#xff1a;https://blog.csdn.net/xiayto/article/details/84730009

关注点&#xff1a;

对于词向量模型进化的过程有一个大致的了解&#xff0c;这对于后面深入学习有一定的帮助

word2vec

来源于2013年的论文《Efficient Estimation of Word Representation in Vector Space》&#xff0c;它的核心思想是通过词的上下文得到词的向量化表示&#xff0c;有两种方法&#xff1a;CBOW&#xff08;通过附近词预测中心词&#xff09;、Skip-gram&#xff08;通过中心词预测附近的词&#xff09;&#xff1a;

Glove:

word2vec只考虑到了词的局部信息&#xff0c;没有考虑到词与局部窗口外词的联系&#xff0c;glove利用共现矩阵&#xff0c;同时考虑了局部信息和整体的信息。来自论文《Glove: Global vectors for word representation

ELMO

ELMO来自于论文《Deep contextualized word representations》&#xff0c;它的官网有开源的工具&#xff1a;https://allennlp.org/elmo

word2vecglove存在一个问题&#xff0c;词在不同的语境下其实有不同的含义&#xff0c;而这两个模型词在不同语境下的向量表示是相同的&#xff0c;Elmo就是针对这一点进行了优化

BERT

BERT的工作方式跟ELMo是类似的&#xff0c;但是ELMo存在一个问题&#xff0c;它的语言模型使用的是LSTM&#xff0c;而不是google2017最新推出的Transformer&#xff08;来自论文《Attention is all you need》&#xff09;


  • 理解GloVe模型&#xff08;&#43;总结&#xff09;

参考链接&#xff1a;https://blog.csdn.net/u014665013/article/details/79642083

关注点&#xff1a;

介绍了举了窗口宽度为5的例子&#xff0c;来讲明共现矩阵。同时对于公式进行了比较详细的梳理


使用GloVe模型训练词向量

模型公式


  • TensorFlow 自然语言处理P88-89

关注点&#xff1a;

这本书还是比较推荐读的&#xff0c;提及到了Glove提出的思路-基于全局的矩阵分解的方法或基于局部上下文窗口的方法

学习词向量的方法分为两类&#xff1a;基于全局的矩阵分解的方法或基于局部上下文窗口的方法。LSA-全局分解-有效地利用了全局统计信息&#xff0c;但在单词类比任务中表现不佳。

Skip-gramCBOW-基于局部上下文窗口的方法&#xff0c;单词类比佳&#xff0c;但没用全局信息所以有改进的空间

Glove有效利用了全局语料库统计数据&#xff0c;同时以类似于skip-gramCBOW这种基于上下文上窗口的方式来优化学习模型

代码实现&#xff1a;

https://github.com/PacktPublishing/Natural-Language-Processing-with-TensorFlow/blob/master/ch4/ch4_glove.ipynb


2 Attention:


论文出处&#xff1a;<>


  • np中的Attention注意力机制&#43;Transformer详解

参考链接&#xff1a;https://www.zhihu.com/question/68482809

关注点&#xff1a;

self-attention

自注意力机制为什么如此强大; 利用注意力机制来“动态”地生成不同连接的权重&#xff0c;从而处理变长的信息序列。

需要讲解一下&#xff0c;Attention的计算的流程


  • 完全图解RNN、RNN变体、Seq2Seq、Attention机制

参考链接&#xff1a;https://www.leiphone.com/news/201709/8tDpwklrKubaecTa.html

关注点&#xff1a;

这里补充了RNNSeq2SeqAttention基础


Notes:

目录就先不补上&#xff0c;这周会继续对Attention这部分进行补充。讲解一下Attention的变体、公式推导、计算过程、Self-Attention的使用

喜欢的客观点个赞呗~


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 本文介绍了如何使用Express App提供静态文件,同时提到了一些不需要使用的文件,如package.json和/.ssh/known_hosts,并解释了为什么app.get('*')无法捕获所有请求以及为什么app.use(express.static(__dirname))可能会提供不需要的文件。 ... [详细]
  • 本文介绍了使用Python编写购物程序的实现步骤和代码示例。程序启动后,用户需要输入工资,并打印商品列表。用户可以根据商品编号选择购买商品,程序会检测余额是否充足,如果充足则直接扣款,否则提醒用户。用户可以随时退出程序,在退出时打印已购买商品的数量和余额。附带了完整的代码示例。 ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • 本文介绍了一些Java开发项目管理工具及其配置教程,包括团队协同工具worktil,版本管理工具GitLab,自动化构建工具Jenkins,项目管理工具Maven和Maven私服Nexus,以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]
author-avatar
勇于明天2015
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有