神经网络基础循环神经网络

作者：欧阳火凡 | 来源：互联网 | 2023-08-14 12:32

在深度学习的路上，从头开始了解一下各项技术。本人是DL小白，连续记录我自己看的一些东西，大家可以互相交流。

本文参考：本文参考吴恩达老师的Coursera深度学习课程，很棒的课，推荐

本文默认你已经大致了解深度学习的简单概念，如果需要更简单的例子，可以参考吴恩达老师的入门课程：

http://study.163.com/courses-search?keyword=%E5%90%B4%E6%81%A9%E8%BE%BE#/?ot=5

转载请注明出处，其他的随你便咯

一、前言

循环神经网络(Recurrent Neural Network，RNN)是一类用于处理序列数据的神经网络。我们在深度学习的学习过程中，会碰到很多序列类型的问题，这时候普通的的神经网络在处理这类问题的时候不适用，所以提出了这种特别的神经网络，在自然语言处理情形下，很有优势。

二、序列模型

我们在深度学习的领域，经常能碰到如下的一些问题：

语音识别：将输入的语音信号直接输出相应的语音文本信息。无论是语音信号还是文本信息均是序列数据。
音乐生成：生成音乐乐谱。只有输出的音乐乐谱是序列数据，输入可以是空或者一个整数。
情感分类：将输入的评论句子转换为相应的等级或评分。输入是一个序列，输出则是一个单独的类别。
DNA序列分析：找到输入的DNA序列的蛋白质表达的子序列。
机器翻译：两种不同语言之间的想换转换。输入和输出均为序列数据。
视频行为识别：识别输入的视频帧序列中的人物行为。
命名实体识别：从输入的句子中识别实体的名字。

神经网络基础-循环神经网络

在这些问题中，我们的输入值和输出值，并不是固定长度，也可能需要根据的上下文来判断。我们先给出一个普通神经网络模型：

神经网络基础-循环神经网络

首先给出数学符号定义：

输入x：如“Harry Potter and Herminone Granger invented a new spell.”(以序列作为一个输入)，x表示输入x中的第t个符号。
输出y：如“1 1 0 1 1 0 0 0 0”（人名识别定位），同样，用y表示输出y中的第t个符号。
Tx用来表示输入x的长度；
Ty用来表示输出y的长度；
x(i)表示第i个样本的第t个符号，其余同理。
利用单词字典编码来表示每一个输入的符号：如one-hot编码等，实现输入x和输出y之间的映射关系。

在上图表示的神经网络中，我们发现主要存在下面俩个问题：

输入和输出数据在不同的样本中可能有不同的长度；
在不同文本中每一个位置学习的特征值不能共享，也就是说权重的最优值在每个样本都不固定。

为了改变上述问题，所以提出了循环神经网络(RNN)。

三、循环神经网络

在RNN中，我们通过延迟输出和传递时间步来解决上述两个问题。在每一个时间步中，RNN会传递一个**值到下一个时间步中，用于下一个时间步的计算。下面给出RNN的图示：

神经网络基础-循环神经网络

如上图，每个X都输入进一个NN，同时输出一个Yhat和一个a。Yhat是基于这个输入X对应的输出值，a是目标节点之前需要记忆的数据的集合。RNN是从左到右扫描数据的，同时共享每个时间步的参数。右侧是RNN的简写方式。

这是需要注意的是，在零时刻a<0>，需要初始化一个**值输入。通常输入零向量，也可以用随机数的方法来输入。

在图中红字所示的Wax、Waa和Way是权重，这三个参数在每个时间步***享(参数相同)：

Wax是从输入值X到隐层a的连接权重；

Waa是从a隐层到隐层a的连接权重；

Wya是从隐层a到输出层Yhat的连接权重。

PS.上述RNN还有一个问题，每个预测值Yhat只包含了在它之前的信息，而没有使用后面的信息，这个问题可以用BRNN(双向循环神经网络)或SLTM来解决，后文会提到。

RNN的前向传播

我们给出一个RNN的结构图：

神经网络基础-循环神经网络

接下来是前向传播的步骤：

构造初始**向量：a<0> = 0(向量)；
- 我们通常用tanh作为**函数，有时也可以用ReLU；
- 如果是二分类问题，可以用sigmoid**函数，如果是多分类问题，可以用softmax**函数；

Note：我们可以利用矩阵的乘法，将Waa和Wax拼为Wa；将a和x拼在一起，这将就可以简化我们的前向传播公式：

神经网络基础-循环神经网络

如上简化之后，RNN的前向传播公式为：

神经网络基础-循环神经网络

RNN的反向传播

我们在进行RNN的反向传播计算时候，也是使用梯度下降法来更新RNN的参数，我们定义其损失函数为：

神经网络基础-循环神经网络

在RNN中，反向传播称为穿越时间的反向传播，因为需要通过时间步来传递。

不同类型的RNN

多对多(Tx = Ty)：

在输入和输出的长度相同时，是上面例子的结构，如下图所示：

神经网络基础-循环神经网络

多对多(Tx != Ty)：

在输入和输出长度不同时候，会有如下结构：

神经网络基础-循环神经网络

多对一：

比如在情感分类模型中，我们对一段语言文本进行情感判断。输入值是一个序列，而输出值只有一个值：

神经网络基础-循环神经网络

一对多：

比如在音乐生成模型中，我们输入一个音乐的类型，输出为一段音乐序列：

神经网络基础-循环神经网络

推荐阅读

io
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
join
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17
ip
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
ip
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
version
Yii2 Elasticsearch: 确保 GET /_nodes 请求的正确性与安全性

在安装并配置了Elasticsearch后，我在尝试通过GET /_nodes请求获取节点信息时遇到了问题，收到了错误消息。为了确保请求的正确性和安全性，我需要进一步排查配置和网络设置，以确保Elasticsearch集群能够正常响应。此外，还需要检查安全设置，如防火墙规则和认证机制，以防止未经授权的访问。 ... [详细]

蜡笔小新 2024-11-08 15:16:44
ip
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
ip
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
io
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
io
超分辨率技术的全球研究进展与应用现状综述

本文综述了图像超分辨率（Super-Resolution, SR）技术在全球范围内的最新研究进展及其应用现状。超分辨率技术旨在从单幅或多幅低分辨率（Low-Resolution, LR）图像中恢复出高质量的高分辨率（High-Resolution, HR）图像。该技术在遥感、医疗成像、视频处理等多个领域展现出广泛的应用前景。文章详细分析了当前主流的超分辨率算法，包括基于传统方法和深度学习的方法，并探讨了其在实际应用中的优缺点及未来发展方向。 ... [详细]

蜡笔小新 2024-10-31 15:10:48
io
Python编程中的高级技巧与应用

在Python编程中，掌握高级技巧对于提升代码效率和可读性至关重要。本文重点探讨了生成器和迭代器的应用，这两种工具不仅能够优化内存使用，还能简化复杂数据处理流程。生成器通过按需生成数据，避免了大量数据加载对内存的占用，而迭代器则提供了一种优雅的方式来遍历集合对象。此外，文章还深入解析了这些高级特性的实际应用场景，帮助读者更好地理解和运用这些技术。 ... [详细]

蜡笔小新 2024-10-30 16:12:26
ip
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
ip
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
io
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
io
如何在jieba分词中加自定义词典_常见中文分词包比较

1jiebajieba.cut方法接受三个输入参数:需要分词的字符串；cut_all参数用来控制是否采用全模式；HMM参数用来控制是否使用HMM模型ji ... [详细]

蜡笔小新 2024-10-11 12:27:39

欧阳火凡

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章