双向神经网络（BidirectionalRNN）

作者：百花一枝梅 | 来源：互联网 | 2023-07-27 17:36

来源：Coursera吴恩达深度学习课程目前为止，我们已经了解了大部分RNN模型的关键的构件（keybuildingblocks

来源&＃xff1a;Coursera吴恩达深度学习课程

目前为止&＃xff0c;我们已经了解了大部分RNN模型的关键的构件&＃xff08;key building blocks&＃xff09;&＃xff0c;还有两个方法&＃xff08;two more ideas&＃xff09;可以让你构建更好的模型&＃xff0c;①双向RNN模型&＃xff08;bidirectional RNN&＃xff09;&＃xff0c;它可以让你在序列的某点处不仅可以获取之前的信息&＃xff0c;还可以获取未来的信息。②第二个就是深层的RNN&＃xff08;deep RNN&＃xff09;。我们现在先从双向RNN开始吧。

回顾命名实体识别的例子&＃xff0c;在判断第三个单词Teddy是不是人名的一部分时&＃xff0c;我们只看了前三个单词&＃xff0c;除了这些信息我们还需要更多的信息。因为根据前3个单词无法判断他们说的是Teddy熊&＃xff0c;还是前美国总统Teddy Roosevelt&＃xff0c;所以这是一个非双向的或者说只有前向的RNN。不管这些单元&＃xff08;上图方形区域&＃xff09;是标准的RNN块&＃xff0c;还是GRU单元或者是LSTM单元&＃xff0c;只要这些构件都是只有前向的。

那么一个双向的RNN是如何解决这个问题的&＃xff1f;下面解释双向RNN的工作原理。

&＃xff08;备注&＃xff1a;还是这个问题&＃xff0c;不知道为什么右上角的符号就是显示不出来&＃xff0c;这篇文章都会&＃xff08;&＃xff09;代替&＃xff0c;有时间会解决这个bug&＃xff0c;望谅解。&＃xff09;

如上图&＃xff0c;为了简化&＃xff0c;用一个只有4个单词&＃xff08;4个输入&＃xff0c;x^(1)到x^(4)&＃xff09;的句子&＃xff0c;这个网络会有一个前向的循环单元&＃xff08;紫色标记&＃xff09;&＃xff0c;在这上面加个向右的箭头&＃xff08;right arrow&＃xff09;来表示前向的循环单元&＃xff08;forward recurrent component&＃xff09;&＃xff0c;然后连接起来。这四个循环单元都有一个当前输入x输入进去&＃xff0c;得到预测的y帽。

如上图&＃xff0c;我们增加一个反向循环层&＃xff08;绿色标记&＃xff09;&＃xff0c;左箭头代表反向连接。这样&＃xff0c;这个网络就构成了一个无环图&＃xff08;acyclic graph&＃xff09;。给定一个输入序列x^(1)到x^(4)&＃xff0c;序列先计算前向a^(1)(右箭头)&＃xff0c;然后计算a^(2)(右箭头)、a^(3)(右箭头)和a^(4)(右箭头)。然后反向序列从a^(4)(左箭头)开始计算&＃xff0c;反向进行&＃xff0c;计算反向是a^(3)(左箭头)。你计算的是网络激活值&＃xff0c;这不是反向而是前向的传播&＃xff0c;而图中这个前向传播一部分计算是从左到右&＃xff0c;一部分计算是从右到左。可以用这些激活值计算反向的a^(2)(左箭头)&＃xff0c;然后是反向的a^(1)(左箭头)&＃xff0c;把所有这些激活值都计算完了就可以计算预测结果了。

为了预测结果&＃xff0c;应用激活函数有公式&＃xff1a;

具体看一个例子&＃xff1a;

如上图黄色标记&＃xff0c;比如你要观察时间3这里的预测结果&＃xff0c;信息从x^(1)过来&＃xff0c;流经前向的a^(1)(右箭头)和a^(2)(右箭头)&＃xff0c;到前向的a^(3)(右箭头)再到y^(3)&＃xff0c;这条路径把输入信息x^(1)到x^(3)都考虑在内。而x^(4)的信息会流到反向的a^(4)(左箭头)&＃xff0c;到反向a^(3)(左箭头)&＃xff0c;再到y^(3)&＃xff0c;这条路径使用了输入信息x^(4)。这样使得时间3的预测结果不仅输入了过去的信息&＃xff0c;还有现在的信息&＃xff0c;同时涉及了前向和反向的传播信息以及未来的信息。给定一个句子"He said Teddy Roosevelt..."来预测Teddy是不是人名的一部分&＃xff0c;你需要同时考虑过去和未来的信息。

这就是双向循环神经网络&＃xff08;bidirectional recurrent neural network&＃xff09;&＃xff0c;并且这些基本单元不仅仅是标准RNN单元&＃xff0c;也可以是GRU单元或者LSTM单元。事实上&＃xff0c;很多的NLP问题&＃xff0c;对于大量有自然语言处理问题的文本&＃xff0c;有LSTM单元的双向RNN模型是用的最多的。所以如果有NLP问题&＃xff0c;并且文本句子都是完整的&＃xff0c;首先需要标定这些句子&＃xff0c;一个有LSTM单元的双向RNN模型&＃xff0c;有前向和反向过程是一个不错的首选。

以上就是双向RNN的内容&＃xff0c;这个改进的方法不仅能用于基本的RNN结构&＃xff0c;也能用于GRU和LSTM。

说明&＃xff1a;记录学习笔记&＃xff0c;如果错误欢迎指正&＃xff01;转载请联系我。

推荐阅读

express
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
express
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
bit
如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解

如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]

蜡笔小新 2024-11-01 19:30:32
int
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
php
Unity3D 中 AsyncOperation 实现异步场景加载及进度显示优化技巧

在Unity3D中，通过使用`AsyncOperation`可以实现高效的异步场景加载，并结合进度条显示来提升用户体验。本文详细介绍了如何利用`AsyncOperation`进行异步加载，并提供了优化技巧，包括进度条的动态更新和加载过程中的性能优化方法。此外，还探讨了如何处理加载过程中可能出现的异常情况，确保加载过程的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-10 11:22:38
c语言
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
int
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
php
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17
stream
在Matlab中自主构建与仿真神经网络模型 - Building and Simulating Neural Network Models Independently in Matlab

在Matlab中，我尝试构建了一个神经网络模型，用于预测函数 y = x^2。为此，我设计并实现了一个拟合神经网络，并对其进行了详细的仿真和验证。通过调整网络结构和参数，成功实现了对目标函数的准确估计。此外，还对模型的性能进行了全面评估，确保其在不同输入条件下的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-10-27 11:21:21
import
TensorFlow基础知识深化讲解

批标准化批标准化（batchnormalization,BN）是为了克服神经网络层数加深导致难以训练而诞生的。深度神经网络随着深度加深，收 ... [详细]

蜡笔小新 2024-10-22 10:19:31
int
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
config
com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例

com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-12 14:33:17
instance
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
php
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
scala
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11

百花一枝梅

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章