热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

本周AI热点回顾:和欧阳娜娜一起搞研发?强大的神经网络新算子involution,超越卷积、自注意力机制!...

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们01我和欧阳娜娜一起搞研发AI新闻播报,开车明星导航,现如今根据文本生成语音的AI技术

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们

01

我和欧阳娜娜一起搞研发

AI新闻播报,开车明星导航,现如今根据文本生成语音的AI技术,那真是飞入寻常百姓家——见怪不怪了。

在这档口,作为这背后AI语音合成技术的研发人员,除了常规收集语音数据、训练模型、优化模型……

还能玩出什么花儿来?

……跟欧阳娜娜一起搞研发,算不算?(误)

如何把欧阳娜娜的声音装进词典里

首先,需要工程师们采集欧阳娜娜的语音。

但很显然,他们本身不可能完整地去录制全部的语音。

甚至因为时间成本的关系,最后能真正喂给TTS(语音合成)模型的源语音也非常有限:几个小时的录音,最后能用的可能只有一小部分。

要用极少的数据,最终合成出高质量的语音,从采集训练数据开始,就要做到严格的把控。

单词和句子所需要的语音合成效果不同,在建模方面需要分别进行调整。

同时,针对模型本身,工程师们进行了多次对比实验,包括经典的基于注意力的Tacotron2模型,业内最新的Non-Attention架构等,以期实现最接近欧阳娜娜本人声音质感,同时发音准确、地道的合成效果。

而除了模型方面的精挑细选、精细打磨,值得一提的是,工程师们在此次AI语音算法的新明星语音新增了大量高采样率的英文女声数据,将采样率从16K提升到了24K,这就让合成语音在音质、听感和真实性方面有了进一步的提升。

私以为是欧阳娜娜本娜没错了。

信息来源:量子位

02

超越卷积、自注意力机制:强大的神经网络新算子involution

本文是对CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的介绍,同时也分享一些对网络结构设计(CNN和Transformer)的理解。

贡献点简单来讲:

  • 提出了一种新的神经网络算子(operator或op)称为involution,它比convolution更轻量更高效,形式上比self-attention更加简洁,可以用在各种视觉任务的模型上取得精度和效率的双重提升。

  • 通过involution的结构设计,能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。

  • 论文链接:

    https://arxiv.org/abs/2103.06255

  • 代码和模型链接:

    https://github.com/d-li14/involution

总体来讲:

  • 参数量、计算量降低,性能反而提升

  • 能加在各种模型的不同位置替换convolution,比如backbone,neck和head,一般来讲替换的部分越多,模型性价比越高。

这篇工作也留了一些坑供大家进一步探索:

  1. 关于广义的involution中kernel生成函数空间进一步的探索;

  2. 类似于deformable convolution加入offest生成函数,使得这个op空间建模能力的灵活性进一步提升;

  3. 结合NAS的技术搜索convolution-involution混合结构(原文Section 4.3);

  4. 在上文论述了self-attention只是一种表达形式,但希望(self-)attention机制能够启发设计更好的视觉模型,类似地detection领域最近不少好的工作,也从DETR的架构中获益匪浅。

希望2021年backbone网络结构设计能有更本质,更多元的发展!

信息来源:机器之心

03

快来尝鲜!移动开发者实现AI业务的必选神器——飞桨移动端部署工具LiteKit

LiteKit提供视频超分、人像分割、手势识别等一系列AI能力,这些AI能力均来自于百度各个业务线AI场景多年的技术沉淀,并以SDK的形式提供,做到了开箱即用

即使是没有任何AI实践的APP开发者,只需通过调用两三个简单API连接LiteKit提供的SDK软件包,就可以顺利接入AI能力。就像拆开快递箱一样简单,打开箱子就可以直接用。

你可以把SDK想象成一个虚拟的程序包,在这个程序包中有一份做好的软件功能,这份程序包几乎是全封闭的,只有一个小小接口可以连通外界,而这个接口就是API。

LiteKit的接入只需要创建、推理、释放三步即可完成AI能力的开发。虽然对于视频超分、人像分割、手势识别,甚至包括未来将要开源的新AI能力,输入输出会各有不同,但是整体流程和API的样式都被抽象成类似的步骤,甚至API的命名都会保持高度一致,让学习成本降到最低。

内容持续更新中,最新内容可以访问此链接获取。

https://github.com/PaddlePaddle/LiteKit

想进一步了解LiteKit的小伙伴,可以上Github点star并查看完整文档及Demo。

信息来源:飞桨PaddlePaddle

04

每天生产45亿词!GPT-3已渗透进300+应用中,网友:边吃边拉

现在,GPT-3每天都生产约45亿个词!

用来做什么?

例如,让曾经“只能看不能撩”的动画角色,通过GPT-3,隔空与你对话。

甚至ta还能看着自己出演的电影,和你“吐槽”电影里面的情节。

但GPT-3可不会只和你一个人聊天,它还同时做着不少事情。

毕竟,它现在可是个大忙人。

每天生产45亿个词

GPT-3就像是一个“大型文字生产机”,每天平均得产出约45亿个词。

而且,这个量还会越来越大。

具体用在什么地方?

分析需求、洞察情绪、扮演虚拟角色、充当搜索引擎……

只要是语言模型能做到的事情,GPT-3都能做,也还做的不错。

不断进化的GPT-3

GPT-3目前已经增加了许多新功能。

其中之一,就是回答端口(answer endpoint)。

采用这一功能的话,你只需要将相关信息告诉GPT-3,例如文档、或者数据库,它就能代替你回答客户的问题。

网友:边拉边吃

在OpenAI公布的这一结果后,许多网友更期待用上GPT-3了。

但也有网友认为,这种现象令人担忧。

因为GPT-3正在成为生产垃圾邮件、虚假信息的最佳选择,更何况以每天45亿个词的速度。

也有网友表示,这种情况下,更要做好分离,不然后果难以想象。

然而,如果GPT-3每天都得生产45亿个词的话,那么不久的将来,它也许就得开始用自己写的东西训练。

有网友吐槽:简直像是边拉边吃……

确实让人有种不好的预感。

信息来源:量子位

05

显卡暴涨,等等党输了,这我万万没想到啊

万万没想到,去年信心满满准备好钱包要买30系显卡的我,现在连1660Ti都快买不起了。

不仅官方原价3899的RTX 3070,一路狂涨到了8000以上的价格,成功以一卡之力斩次时代主机PS5于马下。

连早已停产古董级10系显卡,都实现了完美保值,4年过去还能以接近原价的价格二手出售。

说好的等等党永不为奴呢?

这一次价格暴涨甚至惊动了央视,显卡话题连续登上多档新闻节目。

英伟达在做什么

在今年2月份RTX 3060发布前夕,英伟达为了让玩家买到显卡,决定把3060的挖矿效率限制在50%,同时计划推出专用矿卡CMP系列。

但很快解锁驱动又被官方意外放出,3060也不可避免地加入了缺货、涨价的队伍。

而矿卡系列本身,虽然涨得没有游戏卡夸张,但也……

矿卡中的最低端型号30HX近日开卖,720美元的初始售价迅速被突破,已上涨到815美元

这价格,比起与其算力和功耗都相仿的游戏显卡GTX 1660s还要贵上一些,再加上阉割了图形输出接口难以二次销售,恐怕也很难让矿老板们放过游戏显卡。

另一方面,英伟达把旗下云游戏服务GeForce Now的价格直接翻倍,即使你买不到显卡想玩云游戏,也会被收割一波。

英特尔下场,I卡来了

对了,英特尔也宣布将在美国时间3月26日发布全新游戏显卡Xe HPG系列。

共有6个型号,据爆料最高配型号将搭载512个执行单元、4096个流处理器,核心频率 1800MHz,16GB的GDDR6显存。

对此有网友评价,只要英特尔做到有货,哪怕性能弱一些也能躺赢显卡战争。

信息来源:量子位

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END


推荐阅读
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • LeetCode 实战:寻找三数之和为零的组合
    给定一个包含 n 个整数的数组,判断该数组中是否存在三个元素 a、b、c,使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战
    OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战 ... [详细]
  • 如何高效学习鸿蒙操作系统:开发者指南
    本文探讨了开发者如何更有效地学习鸿蒙操作系统,提供了来自行业专家的建议,包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]
  • 计算机学报精选论文概览(2020-2022)
    本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文提供了一个详尽的前端开发资源列表,涵盖了从基础入门到高级应用的各个方面,包括HTML5、CSS3、JavaScript框架及库、移动开发、API接口、工具与插件等。 ... [详细]
  • 吴石访谈:腾讯安全科恩实验室如何引领物联网安全研究
    腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统,并远程控制汽车,展示了其在汽车安全领域的强大实力。近日,该实验室负责人吴石接受了InfoQ的专访,详细介绍了团队未来的重点方向——物联网安全。 ... [详细]
  • 本文探讨了在一个物理隔离的环境中构建数据交换平台所面临的挑战,包括但不限于数据加密、传输监控及确保文件交换的安全性和可靠性。同时,作者结合自身项目经验,分享了项目规划、实施过程中的关键决策及其背后的思考。 ... [详细]
  • 小编给大家分享一下Vue3中如何提高开发效率,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获, ... [详细]
  • SDWebImage第三方库学习
    1、基本使用方法异步下载并缓存-(void)sd_setImageWithURL:(nullableNSURL*)urlNS_REFINED_FOR_SWIFT;使用占位图片& ... [详细]
  • DirectShow Filter 开发指南
    本文总结了 DirectShow Filter 的开发经验,重点介绍了 Source Filter、In-Place Transform Filter 和 Render Filter 的实现方法。通过使用 DirectShow 提供的类,可以简化 Filter 的开发过程。 ... [详细]
  • 使用方法:将要控制的角色拖到TargetBody,将相机的焦点拖到CamerPivot,,建议CameraPivot是一个放在TargetBody下的子物体,并且位置应该是在Tar ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
author-avatar
caiyafang4376
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有