热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

谷歌团队提出全新在线序列到序列模型,可应用于噪声语音识别

近日谷歌团队发布了一篇关于在线语音识别的序列到序列模型论文,雷锋网(公众号:雷锋网)了解到,该模型可以实现在线实时的语音识别功能,并且对来自不同扬声器的声音具有识别能力。以下内容是

近日谷歌团队发布了一篇关于在线语音识别的序列到序列模型论文,雷锋网(公众号:雷锋网)了解到,该模型可以实现在线实时的语音识别功能,并且对来自不同扬声器的声音具有识别能力。

以下内容是雷锋网AI科技评论根据论文内容进行的部分编译。

论文摘要

生成式模型一直是语音识别的主要方法。然而,这些模型的成功依赖于使用的精密的组合和复杂方法。最近,关于深入学习方面的最新研究已经产生了一种可以替代生成式模型的识别模型,称为“序列到序列模型”。这种模型的准确性几乎可以与最先进的生成模型相匹配。该模型在机器翻译,语音识别,图像标题生成等方面取得了相当大的经验成果。由于这些模型可以在同一个步骤中端对端地进行培训,因此该模型是非常易于训练的,但它们在实践中却具有限制,即只能用于离线识别。这是因为该模型要求在一段话开始时就输入序列的整体以供使用,然而这对实时语音识别等任务来说是没有任何意义的。

谷歌团队提出全新在线序列到序列模型,可应用于噪声语音识别

图. 1:本文使用的模型的总体架构

为了解决这个问题,谷歌团队最近引入了在线序列模型。这种在线序列模型具有将产生的输出作为输入的 特性,同时还可以保留序列到序列模型的因果性质。这些模型具有在任何时间t产生的输出将会影响随后计算结果的特征。其中,有一种模型将使用二进制随机变量来选择产生输出的时间步长。该团队将这个模型称为神经自回归传感器(NAT)。这个模型将使用策略梯度方法来训练随机变量。

谷歌团队提出全新在线序列到序列模型,可应用于噪声语音识别

图. 2:熵正则化对排放位置的影响。 每行显示为输入示例的发射预测,每个符号表示3个输入时间步长。 'x'表示模型选择在时间步长发出输出,而“ - ”则表示相反的情况。 顶线 - 没有熵惩罚,模型在输入的开始或结束时发出符号,并且无法获得有意义的梯度来学习模型。 中线 – 使用熵正规化,该模型及时避免了聚类排放预测,并学习有意义地扩散排放和学习模型。 底线 - 使用KL发散规则排放概率,同时也可以缓解聚类问题,尽管不如熵正则化那样有效。

通过使用估计目标序列相对于参数模型的对数概率的梯度来训练该模型。 虽然这个模型并不是完全可以微分的,因为它使用的是不可微分的二进制随机单元,但是可以通过使用策略梯度法来估计关于模型参数的梯度。更详细地说,通过使用监督学习来训练网络进行正确的输出预测,并使用加强学习以训练网络来决定何时发出各种输出。

谷歌团队提出全新在线序列到序列模型,可应用于噪声语音识别

图. 3:在TIMIT上运行示例培训

图3b和3c分别示出了混合比例分别为0.25和0.5的两种情况的训练曲线的实例。 在这两种情况下,都可以看出,该模型学习了过适合数据。

谷歌团队还研究使用该模型进行噪声输入,其中以不同混合比例将两个扬声器的单声道混合语音作为模型的输入。

实验和结果

使用这个模型对两种不同的语音语料库进行了实验。 第一组实验是对TIMIT进行了初步实验,以评估可能导致模型稳定行为的超参数。 第二组实验是在不同混合比例下从两个不同的扬声器(一个男性和一个女性)混合的语音进行的。 这些实验被称为Multi-TIMIT。

A:TIMIT

TIMIT数据集是音素识别任务,其中必须从输入音频语音推断音素序列。有关训练曲线的示例,请参见图3。 可以看出,在学习有意义的模型之前,该模型需要更多的更新(> 100K)。 然而,一旦学习开始,即使模型受到策略梯度的训练,实现了稳定的过程。

表I显示了通过这种方法与其他更成熟的模型对TIMIT实现的结果。 可以看出,该模型与其他单向模型比较,如CTC,DNN-HMM等。如果结合更复杂的功能,如卷积模型应该可以产生更好的结果。 此外,该模型具有吸收语言模型的能力,因此,应该比基于CTC和DNNHMM的模型更适合端到端的培训,该模型不能固有地捕获语言模型。

谷歌团队提出全新在线序列到序列模型,可应用于噪声语音识别

表I:针对各种模型使用单向LSTM的TIMIT结果

B:Multi-TIMIT

通过从原始TIMIT数据混合男性声音和女性声音来生成新的数据集。 原始TIMIT数据对中的每个发音都有来自相反性别的声音。

谷歌团队提出全新在线序列到序列模型,可应用于噪声语音识别

表II:Multi-TIMIT的结果:该表显示了该模型在不同比例的混合中为干扰语音所实现的音素误差率(PER)。 还显示了深层LSTM 和RNN-自感器 的CTC的结果

表II显示了使用混合扬声器的不同混合比例的结果。 可以看出,随着混合比例的增加,模型的结果越来越糟糕。 对于实验而言,每个音频输入始终与相同的混音音频输入配对。 有趣的是,可以发现,将相同的音频与多个混淆的音频输入配对会产生更差的结果,这是由于产生了更为糟糕的过度配对。 这可能是因为该模型强大到足以复制整个转录的结果。

谷歌团队提出全新在线序列到序列模型,可应用于噪声语音识别

图. 5:Multi-TIMIT的声音分布:该图显示了在TIMIT中发出干净话语的情况下发出令牌的概率以及Multi-TIMIT中对应的噪声发音。 可以看出,对于Multi-TIMIT语句,该模型稍稍比TIMIT语句发出符号要晚一点。

图5显示为示例Multi-TIMIT话语的模型发出的符号。 并与一个干净模型的发出进行比较。 一般来说,与TIMIT发出的模型相比,该模型选择稍后再发布Multi-TIMIT。

结论

在本文中,谷歌团队引入了一种新的在线序列到序列模型的训练方式,并将其应用于具有噪音输入的环境。 作为因果模型的结果,这些模型可以结合语言模型,并且还可以为相同的音频输入生成多个不同的 转录结果。 这使它成为一类非常强大的模型。 即使在与TIMIT一样小的数据集上,该模型依然能够适应混合语音。 从实验分析的角度来说,每个扬声器只耦合到一个干扰扬声器,因此数据集的大小是有限的。 通过将每个扬声器与多个其他扬声器配对,并将每个扬声器预测为输出,应该能够实现更强的鲁棒性。 由于这种能力,该团队希望可以将这些模型应用到未来的多通道、多扬声器识别中。

via arxiv,雷锋网编译

雷锋网版权文章,未经授权禁止转载。详情见。


谷歌团队提出全新在线序列到序列模型,可应用于噪声语音识别


推荐阅读
  • 数据库内核开发入门 | 搭建研发环境的初步指南
    本课程将带你从零开始,逐步掌握数据库内核开发的基础知识和实践技能,重点介绍如何搭建OceanBase的开发环境。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
  • 本文详细记录了在银河麒麟操作系统和龙芯架构上使用 Qt 5.15.2 进行项目打包时遇到的问题及解决方案,特别关注于 linuxdeployqt 工具的应用。 ... [详细]
  • 本文介绍如何使用Perl编写一个简单的爬虫,从丁香园网站获取意大利的新冠病毒感染情况。通过LWP::UserAgent模块模拟浏览器访问并解析网页内容,最终提取所需数据。 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • 阅读本文大约需要3分钟。微信8.0版本的发布带来了许多令人振奋的新功能,如烟花特效和改进的悬浮窗,引发了用户的热烈反响。 ... [详细]
  • 本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法,提供了多个代码示例,并解释了其在不同场景下的使用方法。 ... [详细]
  • VPX611是北京青翼科技推出的一款采用6U VPX架构的高性能数据存储板。该板卡搭载两片Xilinx Kintex-7系列FPGA作为主控单元,内置RAID控制器,支持多达8个mSATA盘,最大存储容量可达8TB,持续写入带宽高达3.2GB/s。 ... [详细]
  • 尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络(RNN)的门槛,但对于初学者来说,理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理(NLP)的RNN模型。 ... [详细]
  • 本文详细介绍了如何在Ubuntu系统中下载适用于Intel处理器的64位版本,涵盖了不同Linux发行版对64位架构的不同命名方式,并提供了具体的下载链接和步骤。 ... [详细]
  • 5G至4G空闲态移动TAU流程解析
    本文详细解析了用户从5G网络移动到4G网络时,在空闲态下触发的跟踪区更新(TAU)流程。通过N26接口实现无缝迁移,确保用户体验不受影响。 ... [详细]
  • Scala 实现 UTF-8 编码属性文件读取与克隆
    本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件,并实现属性文件的克隆功能。通过这种方式,可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]
  • 通过与阿里云的合作,牛客网成功解决了跨国视频面试中的网络卡顿问题,为求职者和面试官提供了更加流畅的沟通体验。 ... [详细]
  • 本文提供了 Xcode 12.0 和 12.1(版本号 16B91)开发工具包的下载链接及安装步骤。通过 Finder 和快捷键,您可以轻松访问和配置 DeviceSupport 文件夹,确保 Xcode 正常运行。 ... [详细]
author-avatar
fdasfwgafaweg
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有