Transformer模型

作者：XXHYM123_702 | 来源：互联网 | 2023-09-09 04:33

前言如果你对这篇文章可感兴趣，可以点击「【访客必读-指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。文章动机在Transform

前言

如果你对这篇文章可感兴趣&＃xff0c;可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」&＃xff0c;查看完整博客分类与对应链接。

文章动机

在 Transformer 之前&＃xff0c;序列翻译任务&＃xff08;或者说与序列、时序相关的任务&＃xff09;通常采用 RNN、CNN 结构&＃xff0c;其中 RNN 的缺点在于&＃xff1a;&＃xff08;1&＃xff09;使用计算的先后次序&＃xff0c;来表征序列中的先后信息&＃xff0c;因此只能串行计算&＃xff08;2&＃xff09;长序列早期的信息可能会丢失&＃xff1b;CNN 的缺点在于&＃xff1a;捕捉相邻信息依赖卷积的窗口&＃xff0c;因此对于长序列的信息可能需要很多层卷积。

基于上述问题&＃xff0c;Transformer 应运而生&＃xff0c;提出新结构&＃xff0c;用于实现&＃xff08;1&＃xff09;更好地并行化&＃xff08;2&＃xff09;更好地建模长序列。

模型结构

在这里插入图片描述

Layer Normalization

Batch Normalization&＃xff1a;对每一个特征 $i$ &＃xff0c;将所有样本中的特征 $i$ 进行归一化&＃xff0c;使其均值为 0&＃xff0c;方差为 1
Layer Normalization&＃xff1a;对每一个样本&＃xff0c;将其中所有特征做归一化&＃xff0c;使其均值为 0&＃xff0c;方差为 1
Transformer 中采用 Layer Normalization 的原因&＃xff1a;在序列问题中&＃xff0c;每一个样本的有效长度是不一样的&＃xff08;无效处通常填 0&＃xff09;&＃xff0c;因此若采用 BN 对每一个特征进行归一化&＃xff0c;很容易受到训练样本有效长度的影响&＃xff0c;例如测试时出现一个特别长的样本

Attention

Scaled Dot-Product Attention

首先是单层直接做 Attention&＃xff0c;输入 Q&＃xff08;query&＃xff09;、K&＃xff08;keys&＃xff09;、V&＃xff08;values&＃xff09;&＃xff0c;具体思想是将 Q 与 K 两两做相似度比较&＃xff0c;再将相似度作为与 V 的权重系数&＃xff0c;具体计算方式如下&＃xff1a;
$(Q,K,V)&＃61;softmax⁡(QKTdk)V\text { Attention }(Q, K, V)&＃61;\operatorname{softmax}\left(\frac{Q K^T}{\sqrt{d_k}}\right) V$

QKT)V
其中 $d_{k}$ 是 Q、K、V 向量维度。此处除以 $dk\sqrt{d_k}$

的原因在于&＃xff0c;当向量较长时&＃xff0c;softmax 很容易将每个元素的结果往 0 或 1 推&＃xff0c;而当所有结果分布在 0、1 区域时&＃xff0c;softmax 函数的梯度将变得很小&＃xff0c;即出现梯度消失现象。
在这里插入图片描述

Mask

由于上述的 Attention 操作是对全局做的&＃xff0c;但实际在预测中&＃xff0c; $t - 1$ 时刻是无法看到 $t$ 时刻信息的&＃xff0c;因此对 $t - 1$ 时刻之后的结果&＃xff0c;乘以一个很大的负数&＃xff0c;即通过 softmax 后变为 0&＃xff0c;V 中对应位置的权重系数变为 0。

Multi-Head Attention

在上述的单层 Attention 中&＃xff0c;我们可以发现没有多少可以调整的参数&＃xff0c;因此借鉴 CNN 的思想&＃xff0c;采用 Multi-Head Attention 的方式&＃xff0c;将 Q、K、V 映射到多个子空间中&＃xff0c;分别进行 Attention 操作后再拼接起来&＃xff0c;具体结构如下所示&＃xff1a;
在这里插入图片描述

Feed-Forward Networks

实际上就是两层 MLP&＃xff0c;计算过程如下&＃xff1a;
$FFN⁡(x)&＃61;max⁡(0,xW1&＃43;b1)W2&＃43;b2\operatorname{FFN}(x)&＃61;\max \left(0, x W_1&＃43;b_1\right) W_2&＃43;b_2$

Positional Encoding

在 RNN 中&＃xff0c;通过计算的先后次序&＃xff0c;来表征序列中的先后信息&＃xff1b;而在 Transformer 中&＃xff0c;Attention 只是两两算相似度&＃xff0c;其本身没有时序信息&＃xff0c;因此在其模型结构中&＃xff0c;主要通过对每一个位置的向量&＃xff0c;加上一个表示当前位置信息的向量&＃xff0c;即一个记录时序信息的 Positional Encoding&＃xff0c;以此达到加入时序的作用&＃xff0c;其具体做法如下&＃xff1a;
$)\begin{aligned} P E_{(p o s, 2 i)} &&＃61;\sin \left(p o s / 10000^{2 i / d_{\text {model }}}\right) \\ P E_{(p o s, 2 i&＃43;1)} &&＃61;\cos \left(p o s / 10000^{2 i / d_{\text {model }}}\right) \end{aligned}$
其中 $PE_{(pos,2i)}$ 表示 $p os$ 位置对应向量的第 $2 i$ 维度数值。

参考链接

Attention Is All You Need
李沐 - Transformer论文逐段精读

推荐阅读

bit
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
bit
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
spring
Spring特性实现接口多类的动态调用详解

本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]

蜡笔小新 2023-12-14 03:24:19
cookie
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
function
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
bit
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
function
使用n3-charts绘制以日期为x轴的数据

本文介绍了如何使用n3-charts绘制以日期为x轴的数据，并提供了相应的代码示例。通过设置x轴的类型为日期，可以实现对日期数据的正确显示和处理。同时，还介绍了如何设置y轴的类型和其他相关参数。通过本文的学习，读者可以掌握使用n3-charts绘制日期数据的方法。 ... [详细]

蜡笔小新 2023-12-10 00:19:21
search
rhel5.5搭建网关+LAMP+postfix+dhcp的步骤和配置方法

本文介绍了在rhel5.5操作系统下搭建网关+LAMP+postfix+dhcp的步骤和配置方法。通过配置dhcp自动分配ip、实现外网访问公司网站、内网收发邮件、内网上网以及SNAT转换等功能。详细介绍了安装dhcp和配置相关文件的步骤，并提供了相关的命令和配置示例。 ... [详细]

蜡笔小新 2023-12-14 17:13:20
search
散列表的查找过程及优势与劣势

散列表是一种存储和查找方法，通过散列函数计算记录的散列地址来存储和访问记录。与线性表、树、图等结构不同的是，散列技术的记录之间不存在逻辑关系，只与关键字有关联。散列表的优势在于快速的查找速度，但也存在劣势。散列表最适合解决查找与给问题。 ... [详细]

蜡笔小新 2023-12-14 17:01:35
search
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
search
单击后为什么远程通知操作无效？ - Why remote notification action is doing nothing after clicking?

IhaveconfiguredanactionforaremotenotificationwhenitarrivestomyiOsapp.Iwanttwodiff ... [详细]

蜡笔小新 2023-12-14 15:57:44
search
Win10下游戏不能全屏的解决方法及兼容游戏列表

本文介绍了Win10下游戏不能全屏的解决方法，包括修改注册表默认值和查看兼容游戏列表。同时提供了部分已经支持Win10的热门游戏列表，帮助玩家解决游戏不能全屏的问题。 ... [详细]

蜡笔小新 2023-12-14 13:40:42
search
阿里云物联网 .NET Core 客户端 | CZGL.AliIoTClient：4. 设备上报属性

阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]

蜡笔小新 2023-12-14 12:40:20
search
使用在线工具jsonschema2pojo根据json生成java对象

本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具，用户只需将json字符串复制到输入框中，即可自动将其转换成java对象。该工具还能解析列表式的json数据，并将嵌套在内层的对象也解析出来。本文以请求github的api为例，展示了使用该工具的步骤和效果。 ... [详细]

蜡笔小新 2023-12-13 21:23:45
copy
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11

XXHYM123_702

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章