ViT(VisionTransformer)TransformerModel（1）

作者：小白学习 | 来源：互联网 | 2023-09-11 21:15

transform是2017年提出来的，当时横扫NLP领域的多个任务，Vaswanietal.AttentionIsAllYouNeed.InNIPS,

transform是2017年提出来的&＃xff0c;当时横扫NLP领域的多个任务&＃xff0c;Vaswani et al. Attention Is All You Need. In NIPS,2017.

transform模型是Seq2Seq模型

transform不是RNN

transform是基于attention机制和全连接层的

这里通过最初的基于RNN的Seq2Seq模型&＃xff0c;到基于RNN&＃43;attention的Seq2Seq模型&＃xff0c;在到把RNN去掉全部基于attention的Seq2Seq模型&＃xff0c;然后transform模型的思路进行讲解&＃xff0c;这里前面几个都是前面讲过的&＃xff0c;这里只是简单介绍即可

基于RNN的Seq2Seq模型

先介绍RNN是怎么更新状态的

基于RNN的Seq2Seq模型

这里简单的说一下&＃xff0c;为什么在编码器中只需要使用最后一个状态的输出&＃xff0c;为什么不使用中间的状态&＃xff0c;因为最后一个状态包含了输入的所有信息&＃xff0c;中间的状态&＃xff0c;包含的信息不全

接着&＃xff1a;

基于RNN&＃43;attention的Seq2Seq模型

可以发现基于attention的Seq2Seq的模型增加了context状态&＃xff0c;通过context状态在计算输出状态h如下&＃xff1a;

因此基于attention的RNN解决了长序列依赖问题&＃xff0c;因为每个状态都包含了输入的整个信息。

计算context方法

上面采用的计算context方法并不是很常用&＃xff0c;常用的方法是如下&＃xff1a;

即引入三个矩阵和三个状态&＃xff0c;其实本质上和上面的目的是一样的&＃xff0c;只是处理方式不同&＃xff0c;增加更多的参数&＃xff0c;使模型表达能力更强。

他们的区别是什么&＃xff1f;其实大家可以这样想&＃xff0c;在获取解码器的输出状态时&＃xff0c;使用RNN对seq2seq进行建模时&＃xff0c;会发现&＃xff0c;输入和上一个状态的S进行concat&＃xff0c;然后乘上一个矩阵A&＃xff0c;那么我们是否可以拆开呢&＃xff1f;单独对输入创建一个参数矩阵和单独对状态创建一个矩阵&＃xff0c;当然可以啊&＃xff0c;两个矩阵的目的都是一样的&＃xff0c;增加参数矩阵的表达能力&＃xff0c;为了引入注意力机制&＃xff0c;就需要计算相关性 &＃xff0c;那么也可以引入一个矩阵即可&＃xff0c;因此&＃xff0c;本质上transform就是通过计算相关性&＃xff0c;然后把输出状态和每个输入的状态都关联起来&＃xff0c;至于关联度其实就是相关性了&＃xff0c;如何计算相关性&＃xff0c;方法很多&＃xff0c;而目前比较受欢迎的方法就是transform的这个方法&＃xff0c;即设置参数矩阵Q、K、V:

Q矩阵是query就是当前的状态需要和编码器的状态计算相识度&＃xff0c;因此需要解码器当前状态S乘上一个参数矩阵Q&＃xff0c;表示该矩阵需要询问编码器所有的状态

K矩阵是key的意思&＃xff0c;因为解码输出状态Q需要和编码器输出状态计算相关性&＃xff0c;那么编码器的输出就是key了&＃xff0c;因为每个编码器的输出都需要和Q相乘&＃xff0c;因此称为key

V值其实很简单&＃xff0c;在Q和K计算输出后是以矩阵&＃xff0c;而相关性系数是一个值&＃xff0c;因此需要另一个矩阵把Q和K的矩阵值在乘上一个矩阵V使其结果为一个相关性向量&＃xff0c;这样就可以获取完整的α了&＃xff0c;下面介绍基于RNN和attention的seq2seq模型

从上可以发现key和value的输出向量都是编码器的输出h状态&＃xff0c;还是所有的状态&＃xff0c;而q的输入是解码器当前的输出S状态&＃xff0c;其中S0的状态为h_m&＃xff0c;C0初始化为0&＃xff0c;把S0和C0进行concat在通过激活函数就可以得到S1了&＃xff0c;关键是如何通过attention计算法C1&＃xff0c;其实很简单&＃xff0c;此时S1和编码器的h_i都是知道的&＃xff0c;那么分别创建W_Q矩阵和W_K矩阵和W_V矩阵&＃xff0c;q矩阵是解码器当前输出状态S的参数矩阵&＃xff0c;K是编码器的输出状态h的参数矩阵&＃xff0c;V是为了计算相识度α的矩阵&＃xff0c;该输入也是编码器的输出状态。

通过K和q的矩阵相乘&＃xff0c;在通过softmax获取相识度α权重&＃xff0c;然后计算当前输出状态的上下文C了

基于Attention的Seq2Seq模型

上面的是全部基于attention实现的seq2seq模型&＃xff0c;从上可以发现&＃xff0c;K和V的输入都是基于编码器的输入x_i,q的输入是解码器的上一个输出x^&＃39;,其他的很基于rnn的attention类似&＃xff0c;这里不过多解释&＃xff0c;下面介绍如何组建成transform模型

Attention Layer

把上面模块化形成attention层

Self-attention层

Self-attention层和attention类似&＃xff0c;只是这里的输入全为x_i,同样没有RNN网络&＃xff0c;只有attention&＃xff0c;其中Q、K、V的输入都是x&＃xff0c;通过类似的方式及时α值&＃xff0c;具体如下&＃xff1a;

计算α值&＃xff1a;

计算C值&＃xff1a;

Self-attention层&＃xff1a;

简化&＃xff1a;

推荐阅读

get
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
get
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
get
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
get
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
get
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
get
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
get
常用的CSS属性及用法整理

本文整理了常用的CSS属性及用法，包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等，方便开发者查阅和使用。 ... [详细]

蜡笔小新 2023-12-09 03:01:43
get
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
get
Word2vec from scratch (Skip-gram & CBOW)

在自然語言處理領域中，如何透過向量表達一個詞彙，是近幾年非常火熱的議題，在distributedrepresentation(densevector)尚未風行前，大多數的任務都以1-hotencoding作為詞彙的表示，其方法得到了高維度的稀疏向量，雖容易理解、簡單計算，但也帶來許多副作用；直至2013年，ThomasMikolov等人提出了word2vec，word2vec引用了一個概念，作者導 ... [详细]

蜡笔小新 2023-10-17 15:23:05
get
org.apache.pig.backend.executionengine.ExecException.()方法的使用及代码示例

本文整理了Java中org.apache.pig.backend.executionengine.ExecException.<init>()方法的一些代码 ... [详细]

蜡笔小新 2023-10-17 14:26:45
get
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
get
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
get
如何使用readlink获取文件的完整路径？

本文介绍了使用readlink命令获取文件的完整路径的简单方法，并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]

蜡笔小新 2023-12-09 17:28:17
get
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
get
【疑难杂症】allennlp安装报错：Installing build dependencies ... error

背景：配置PURE的算法环境，安装allennlp0.9.0（pipinstallallennlp0.9.0）报错ÿ ... [详细]

蜡笔小新 2023-10-17 16:20:30

小白学习

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章