dnn回归预测_seq2seq重温以及时间序列预测应用

作者：小桃爱学PHP | 来源：互联网 | 2023-09-15 22:41

seq2seq，是生成式模型，诞生之初主要是为解决RNN无法处理不定长配对的问题。除此之外，另一个重要的地方在于，seq2s

seq2seq&＃xff0c;是生成式模型&＃xff0c;诞生之初主要是为解决RNN无法处理不定长配对的问题。

除此之外&＃xff0c;另一个重要的地方在于&＃xff0c;seq2seq的结构可以更好的处理一些场景下的输出问题&＃xff0c;典型的就是时间序列预测的多步预测&＃xff0c;标签之间存在着很强的序列相关性&＃xff0c;这部分之前写过了&＃xff1a;

马东什么&＃xff1a;深度学习在时间序列预测上的三种策略以及一些soa模型的总结zhuanlan.zhihu.com

seq2seq要解决的核心问题是序列、序列、序列&＃xff0c;无论是文本的离散序列还是时间序列预测的连续序列&＃xff0c;因此&＃xff0c;cnn、rnn等这类可以学习到序列相关性的模型都可以作为其输入和输出&＃xff0c;所以基本上没看到有人把DNN放进seq2seq结构的&＃xff0c;虽然也是可以实现的。。。

典型的应用就是&＃xff1a;

encoder端使用cnn&＃xff0c;decoder端使用RNN&＃xff0c;完成图片文本描述自动生成的任务。

然后时seq2seq的目标函数&＃xff1a;

对于输入序列x1&＃xff0c;...&＃xff0c;xT与输出序列y1&＃xff0c;...&＃xff0c;yT&＃39;而言&＃xff0c;通过Encoder我们能将x1&＃xff0c;...&＃xff0c;xT转换成上下文向量v&＃xff0c;我们希望能在Decode阶段最大化条件概率p&＃xff0c;可以看到输出的长度时T&＃39;&＃xff0c;输入的长度是T。

早期直接使用LSTM&＃xff0c;输入和输出必须是等长度的&＃xff1a;

那个时候没有seq2seq的概念&＃xff0c;直接用LSTM来完成机器翻译&＃xff0c;输出是每一个cell的hidden state&＃xff0c;因此模型结构固定了输出的长度为cells的个数&＃xff0c;对于时间序列的多步预测也是&＃xff0c;这意味着我们只能用n个历史特征来预测未来的n个时间步的结果。

seq2seq的两个高级概念&＃xff1a;teacher forcing 和beam search

陈猛&＃xff1a;简说Seq2Seq原理及实现zhuanlan.zhihu.com

王岳王院长&＃xff1a;Tensorflow中的Seq2Seq全家桶zhuanlan.zhihu.com

Dreaming.O&＃xff1a;关于Teacher Forcing 和Exposure Bias的碎碎念zhuanlan.zhihu.com

这部分&＃xff0c;这三篇文章都写的比较好。

teacher forcing是训练seq2seq的一种技巧&＃xff0c;不使用seq2seq则&＃xff0c;如上图&＃xff1a;

”瞅“的输入是”你“的prediction与hidden state。。后面依此类推&＃xff0c;这样的问题和之前提到过的

马东什么&＃xff1a;时间序列多步预测的五种策略zhuanlan.zhihu.com

递归多步预测的问题是一样的&＃xff0c;用预测的结果作为输入特征会导致误差的积累&＃xff0c;特别是初始的预测结果如果存在误差则后续的误差会越来越大。

思路也不复杂&＃xff0c;我们原本是使用第t&＃43;1个时间步的预测结果和hidden state作为t&＃43;2的时间步的输入&＃xff08;这种训练方式的叫法这么多的吗&＃xff0c;有叫autoregressive的&＃xff0c;有叫贪婪模式的&＃xff0c;有叫free running的。。。&＃xff09;&＃xff0c;使用teacher forcing之后&＃xff0c;使用第t&＃43;1个时间步的真实标签和hidden state作为第t&＃43;2个时间步的输入。

teacher forcing的好处在于可以加快模型收敛同时避免了误差累计传播的问题。

这里有一个更形象的例子&＃xff1a;

炫云&＃xff1a;Teacher Forcing训练机制zhuanlan.zhihu.com

RNN存在着两种训练模式(mode):
free-running mode
teacher-forcing mode
free-running mode就是大家常见的那种训练网络的方式: 上一个state的输出作为下一个state的输入。而Teacher Forcing是一种快速有效地训练循环神经网络模型的方法&＃xff0c;该模型使用来自先验时间步长的输出作为输入。

时间序列问题同理。

缺点是&＃xff1a;

这些文章讨论了在进行自然语言处理的时候存在的其他问题&＃xff1a;

Dreaming.O&＃xff1a;关于Teacher Forcing 和Exposure Bias的碎碎念zhuanlan.zhihu.com

上面的『比喻』&＃xff0c;其实就是不太严谨的 Exposure Bias 现象了。更严谨的表述&＃xff0c;由于训练和预测的时候decode行为的不一致&＃xff0c; 导致预测单词&＃xff08;predict words&＃xff09;在训练和预测的时候是从不同的分布中推断出来的。而这种不一致导致训练模型和预测模型直接的Gap&＃xff0c;就叫做 Exposure Bias。

实际上说的就是特征分布偏移导致模型存在偏差的问题&＃xff1b;

Teacher-Forcing 技术在解码的时候生成的字符都受到了 Ground-Truth 的约束&＃xff0c;希望模型生成的结果都必须和参考句一一对应。这种约束在训练过程中减少模型发散&＃xff0c;加快收敛速度。但是一方面也扼杀了翻译多样性的可能。
Teacher-Forcing 技术在这种约束下&＃xff0c;还会导致一种叫做 Overcorrect(矫枉过正) 的问题。例如&＃xff1a;
1. 待生成句的Reference为: "We should comply with the rule."
2. 模型在解码阶段中途预测出来&＃xff1a;"We should abide"
3. 然而Teacher-forcing技术把第三个ground-truth "comply" 作为第四步的输入。那么模型根据以往学习的pattern&＃xff0c;有可能在第四步预测到的是 "comply with"
4. 模型最终的生成变成了 "We should abide with"
5. 事实上&＃xff0c;"abide with" 用法是不正确的&＃xff0c;但是由于ground-truth "comply" 的干扰&＃xff0c;模型处于矫枉过正的状态&＃xff0c;生成了不通顺的语句。

不太了解这一块儿的&＃xff0c;get 不到其缺点&＃xff1b;

还有一个比较大的应用问题&＃xff0c;那就是&＃xff1a;

teacher forcing在训练阶段可用&＃xff0c;预测阶段不可用&＃xff0c;显然预测阶段t&＃43;1的真实标签是没有的&＃xff0c;没法像训练一样t&＃43;1的真实标签和hidden state传入t&＃43;2&＃xff0c;这个时候就需要beam search的帮助了&＃xff0c;所以beam search实际上是在预测阶段使用的一种手段&＃xff0c;和模型训练无关&＃xff0c;并不会参与到模型的参数更新的过程中&＃xff0c;类似于一种模型输出的后处理的手段。

之前基础的 seq2seq 版本在输出序列时&＃xff0c;仅在每个时刻选择概率 top 1 的单词作为这个时刻的输出单词&＃xff08;相当于局部最优解&＃xff09;&＃xff0c;然后把这些词串起来得到最终输出序列。实际上就是贪心策略
但如果使用了 Beam Search&＃xff0c;在每个时刻会选择 top K 的单词都作为这个时刻的输出&＃xff0c;逐一作为下一时刻的输入参与下一时刻的预测&＃xff0c;然后再从这 K*L&＃xff08;L为词表大小&＃xff09;个结果中选 top K 作为下个时刻的输出&＃xff0c;以此类推。在最后一个时刻&＃xff0c;选 top 1 作为最终输出。有点带剪枝的动态规划的意思

这个其实本质上就是生成多个候选序列&＃xff0c;在最后一个时间步输出的时候&＃xff0c;所有的候选序列的不同预测时间步的概率累成得到了最终的k个结果&＃xff0c;我们取最终累计概率最大的作为输出&＃xff0c;具体过程可见这一篇&＃xff0c;非常的详细&＃xff1a;

AI Starter&＃xff1a;如何通俗的理解beam search&＃xff1f;zhuanlan.zhihu.com

然而有一个主要的问题在于&＃xff0c;时间序列预测不存在所谓的topk的概念&＃xff0c;因为预测的都是实值&＃xff0c;所以无法使用beam search的方式来解决预测的问题&＃xff0c;因此&＃xff0c;针对于这个问题实际上时间序列预测 of seq2seq 舍弃了beam search的思路&＃xff0c;使用了teacher forcing的扩展方法——curriculum learning&＃xff0c;对应的采样方法叫做scheduled sampling。

思路也很简单&＃xff1a;

https://blog.csdn.net/bobobe/article/details/81297064blog.csdn.net

curriculum learning如上图所示&＃xff0c;训练时网络将不再完全采用真实序列标记做为下一步的输入&＃xff0c;而是以一个概率p选择真实标记&＃xff0c;以1-p选择模型自身的输出。“scheduled sampling”即p的大小在训练过程中是变化的&＃xff0c;就像学习率一样。作者的思想是&＃xff1a;一开始网络训练不充分&＃xff0c;那么p尽量选大值&＃xff0c;即尽量使用真实标记。然后随着训练的进行&＃xff0c;模型训练越来越充分&＃xff0c;这时p也要减小&＃xff0c;即尽量选择模型自己的输出。这样就尽量使模型训练和预测保持一致。

p随训练次数的变化方式有如下选择&＃xff1a;

最终的输出仍旧是按照常规的 seq2seq的方式来输出&＃xff0c;只不过采用了这样的训练方式可以较好的提高模型的泛化性能。

代码部分&＃xff0c;把深度序列模型系列整理完了发几个demo上来。

总的来说&＃xff0c;seq2seq的原理并不复杂&＃xff0c;复杂一点的是加入attention机制之后可能会有一点难理解&＃xff0c;seq2seq&＃43;attention也可以并且也已经应用到时间序列的预测上来了&＃xff0c;attention的内容打算单独整一块写&＃xff0c;这里就不赘述了&＃xff0c;配合之前写的seq2seq的一些经典结构&＃xff1a;

马东什么&＃xff1a;seq2seq by keras 总结zhuanlan.zhihu.com

seq2seq的研究差不多就先到这边吧

推荐阅读

object
基于TensorFlow的鸢尾花数据集神经网络模型深度解析

基于TensorFlow的鸢尾花数据集神经网络模型深度解析 ... [详细]

蜡笔小新 2024-10-22 11:56:51
object
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
object
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
list
深度学习分位数回归实现区间预测

深度学习分位数回归实现区间预测 ... [详细]

蜡笔小新 2024-10-19 11:37:08
post
深入探讨ASP.NET 2.0中的Callback机制及其应用

本文详细解析了ASP.NET 2.0中的Callback机制，不仅介绍了基本的使用方法，还深入探讨了其背后的实现原理。通过对比Atlas框架，帮助读者更好地理解和应用这一机制。 ... [详细]

蜡笔小新 2024-11-14 10:03:15
list
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
rsa
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
rsa
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
rsa
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
text
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
list
PyTorch常见预训练模型的下载链接及使用指南

本文提供了PyTorch框架中常用的预训练模型的下载链接及详细使用指南，涵盖ResNet、Inception、DenseNet、AlexNet、VGGNet等六大分类模型。每种模型的预训练参数均经过精心调优，适用于多种计算机视觉任务。文章不仅介绍了模型的下载方式，还详细说明了如何在实际项目中高效地加载和使用这些模型，为开发者提供全面的技术支持。 ... [详细]

蜡笔小新 2024-10-27 13:57:42
js
利用TensorFlow.js在网页浏览器中实现高效的人脸识别JavaScript接口

作者|VincentMühle编译|姗姗出品|人工智能头条（公众号ID：AI_Thinker）【导读】随着深度学习方法的应用，浏览器调用人脸识别技术已经得到了更广泛的应用与提升。在 ... [详细]

蜡笔小新 2024-10-23 10:50:38
input
TensorFlow基础知识深化讲解

批标准化批标准化（batchnormalization,BN）是为了克服神经网络层数加深导致难以训练而诞生的。深度神经网络随着深度加深，收 ... [详细]

蜡笔小新 2024-10-22 10:19:31
input
Python–tensorflow . math . multiply()

Python–tensorflow.math.multiply() ... [详细]

蜡笔小新 2024-10-18 15:01:20
input
利用 PyTorch 实现 Python 中的高效矩阵运算

利用 PyTorch 实现 Python 中的高效矩阵运算 ... [详细]

蜡笔小新 2024-10-26 20:00:47

小桃爱学PHP

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章