热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品

夏乙发自麦蒿寺量子位出品|公众号QbitAI第一个全卷积语音识别工具包wav2letter开源了。出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。抛开广告法不谈
夏乙 发自 麦蒿寺
量子位 出品 | 公众号 QbitAI

640?wx_fmt=gif

第一个全卷积语音识别工具包wav2letter++开源了。

出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。

抛开广告法不谈,我们来全面了解一下wav2letter++,看看Facebook哪来的勇气口出狂言。

wav2letter++由Facebook AI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。

Facebook还说,它是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。

所谓“全卷积”,指的是wav2letter++在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。

640?wx_fmt=png

一般来说,在声音和语言建模任务上,循环网络架构才是更常用的。不过,CNN构成的wav2letter++在性能上也不输那些RNN模型。

Facebook团队在论文中,将他们的wav2letter++和其他主流开源语音识别系统做了比较。

他们说,某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1到64个GPU,训练时间是线性变化的。

640?wx_fmt=png

其实,wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。

想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。

最后,附上传送门~

GitHub地址:

https://github.com/facebookresearch/wav2letter

论文:

640?wx_fmt=png

wav2letter++: The Fastest Open-source Speech Recognition System
Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

https://arxiv.org/pdf/1812.07625.pdf

作者系网易新闻·网易号“各有态度”签约作者


加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


640?wx_fmt=gif

好看吗?↘↘↘



推荐阅读
author-avatar
0龙麒麟0
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有