热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

交通预见未来(4):从NLP自然语言处理到工程领域中的时间序列:我们能学到什么?...

NLP自然语言处理中的单词,句子,经过各种处理编码,电脑识别到的还是一串数字,即一个有前后关系的时间序列。放到交通工程、土木

NLP自然语言处理中的单词,句子,经过各种处理编码,电脑识别到的还是一串数字,即一个有前后关系的时间序列。放到交通工程、土木工程领域,时间、速度、客流量、轨道形变量、桥梁变形位移等各类时间序列本来就是数值,相比于NLP,还省去了编码的过程呢,哈哈哈!所以做个大自然的搬运工岂不省事?!!!计算机小白的我,还是从NLP领域大火的Seq2Seq模型开始蜗牛吧……

文章信息

《Sequence to Sequence Learning with Neural Networks》。

这篇文章是2014年Google Brain团队的三位老外发的一篇文章,首次真正提出了Seq2Seq模型,被引6000多次。其实还有另外一篇文章《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》也是在2014年使用了 Seq2Seq 模型来解决机器翻译的问题,被引5000多次,这边文章比前者早了几个月,两篇文章的区别是前者是来自于谷歌的论文,工程应用性更强,后者来自蒙特利尔大学的一个博士生,学术性更强,后面这篇文章有空再看。

摘要

本文提出了一种end-to end序列学习方法,使用多层LSTM将输入序列映射到一个固定维数的向量上(编码),然后用另一个深层LSTM从向量上解码目标序列。将该方法应用在WMT-14数据集的英法翻译任务中。此外,LSTM擅长处理长句子(得益于LSTM处理long-term dependency的良好性能,交通领域即能记忆很久以前的交通状态,从而应用到当前状态的预测中)。LSTM还学习了对词序敏感、对主动语态和被动语态相对不敏感的短语和句子表示。最后,我们发现对所有输入序列(不是目标序列)做逆序处理后显著地提高了LSTM的性能,因为这样做会在输入序列和目标序列之间引入许多短期依赖关系,从而使优化问题变得更加容易。

简介

深度神经网络(DNNs)是一种功能极其强大的机器学习模型,在语音识别和视觉对象识别等困难问题上表现优异。DNNs之所以功能强大是因为它们可以用很少的步骤执行任意并行计算。虽然神经网络与传统的统计模型有关,但它们能够学习复杂的计算。此外,只要有足够的有标记的训练集来确定网络参数,就可以使用有监督的反向传播算法对DNNs进行训练。

尽管DNNs具有灵活性和强大的功能,但其输入和输出只能用用固定维数的向量来编码。这是很大限制,因为许多重要的问题最好用长度未知的序列来表示。例如,语音识别和机器翻译(输入输出不可能长度相等)。因此,一个学习将序列映射到序列的不受输入输出维数限制的方法显然是有用的。

DNNs要求输入和输出的维数是已知的和固定的。(对于RNN,只要预先知道输入和输出之间的固定长度,RNN就可以轻松地将序列映射到序列。然而,如何将RNN应用于输入和输出序列长度不同且关系复杂且非单调的问题,目前尚不清楚)。

本文展示了一个直观的长短期记忆(LSTM)结构解决一般序列对序列的问题(如下图)。其思想是使用一个LSTM来读取输入序列(每次一个时间步长)通过编码获得固定维度的向量,然后使用另一个LSTM进行解码,即从该向量中提取输出序列。第二个LSTM本质上是一个递归神经网络语言模型,但它的输入是编码得到的固定维度的向量。LSTM能够成功地学习具有长期时间依赖关系的数据,所以本文中的模型也自然是基于LSTM。

简单理解一下就是输入序列为ABC以及输入序列结束符号,从开始解码出WXYZ以及结束符号,停止解码。多说一句该模型架构在翻译任务上,均取得了不错的效果,且还有巨大的提升空间(比如引入Attention注意力机制)

该模型在长句子上表现很好,因为我们颠倒了训练集和测试集中输入序列中单词的顺序(只颠倒输入序列,不颠倒输出序列)。这样做,我们引入了许多短期依赖关系从而使优化问题变得更简单。

LSTM的一个特性是它能将一个可变长度的输入语句映射成一个固定维度的向量表示。考虑到翻译往往是原句段落的释义,翻译目标鼓励LSTM找到能够表示其含义的句子表示形式,因为具有含义相近的句子彼此接近,而含义不同的句子会距离很远。结果表明我们的模型能够识别词序,并且对主动语态和被动语态也不敏感。

创新点

(1)首先我们使用了两种不同的LSTM:一种用于输入序列,另一种用于输出序列,这样虽然增加了模型参数,但计算成本的增加可以忽略不计,并且可以提高模型的泛化能力。

(2)其次,我们发现深度LSTM明显优于浅层LSTM,因此我们选择了一个4层的LSTM。

(3)第三,我们发现颠倒输入句子的单词顺序非常有价值。例如,不是映射将a, b, c 映射到α, β, γ,而是将 c, b, a 映射到α, β, γ。其中α, β, γ是翻译后的a, b, c。这样, a 就离α很近, b 就离β很近, 依此类推。(正如上面所提到的,一个段落中有含义相近的句子彼此接近,而含义不同的句子会距离很远)

主体内容

只是学习建模思想,所以NLP领域的专业知识和建模过程就略过了。

模型的实现上,其实Seq2Seq模型就是一个使用了LSTM层Encoder-Decoder自编码器模型,Keras 中也比较适合新手实现。

类似于这样的……


或者这样的……

特别之处

将输入进行颠倒逆序:

文章说虽然我们对这一现象没有一个完整的解释,但我们认为这是由于对数据集引入了许多短期依赖关系造成的。

但是又强行解释到:通过颠倒输入序列中的单词,保持输入序列中对应单词与输出序列的平均距离不变。然而,输入序列中的前几个单词现在与输出序列中的前几个单词非常接近,因此问题的最小time lag大大减少,而句子末尾的词距离变长的代价似乎并不显著。因此,反向传播更容易在输入序列和输出序列之间“建立通信”,从而大大提高了整体性能。

展望

土木工程和交通工程领域的时间序列处理问题上,或许可以探索借鉴本文的建模思想,以得到更好的结果。

每一个不曾起舞的日子,都是对生命的辜负。

——  尼采

Transportation-ML

与你分享科研成长的乐趣

长按二维码关注


推荐阅读
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • 第三届人工智能、网络与信息技术国际学术会议(AINIT 2022)
    20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]
  • 如何高效学习鸿蒙操作系统:开发者指南
    本文探讨了开发者如何更有效地学习鸿蒙操作系统,提供了来自行业专家的建议,包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]
  • 本周三大青年学术分享会即将开启
    由雷锋网旗下的AI研习社主办,旨在促进AI领域的知识共享和技术交流。通过邀请来自学术界和工业界的专家进行在线分享,活动致力于搭建一个连接理论与实践的平台。 ... [详细]
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • 计算机学报精选论文概览(2020-2022)
    本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ... [详细]
  • 自动驾驶中的9种传感器融合算法
    来源丨AI修炼之路在自动驾驶汽车中,传感器融合是融合来自多个传感器数据的过程。该步骤在机器人技术中是强制性的,因为它提供了更高的可靠性、冗余性以及最终的 ... [详细]
  • LeetCode 实战:寻找三数之和为零的组合
    给定一个包含 n 个整数的数组,判断该数组中是否存在三个元素 a、b、c,使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]
  • 兆芯X86 CPU架构的演进与现状(国产CPU系列)
    本文详细介绍了兆芯X86 CPU架构的发展历程,从公司成立背景到关键技术授权,再到具体芯片架构的演进,全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]
  • 视觉图像的生成机制与英文术语解析
    近期,Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机(MLP)在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制,并解析了相关技术术语,为理解视觉图像生成提供了新的视角和方法。 ... [详细]
  • 步入人工智能新时代,掌握这些关键知识点至关重要。AI技术将成为人类的重要辅助工具,不仅能够扩展和增强人类的智能,还能帮助我们实现更加卓越的成就。新一代人工智能技术的发展将为各行各业带来深远的影响,推动社会进步与创新。 ... [详细]
  • AI TIME联合2021世界人工智能大会,共探图神经网络与认知智能前沿话题
    AI TIME携手2021世界人工智能大会,共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来,WAIC已成为全球AI领域的年度盛会,吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]
  • TensorFlow基础知识深化讲解
    批标准化批标准化(batchnormalization,BN)是为了克服神经网络层数加深导致难以训练而诞生的。深度神经网络随着深度加深,收 ... [详细]
author-avatar
翻版的袁城
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有