热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

本周AI热点回顾:和欧阳娜娜一起搞研发?强大的神经网络新算子involution,超越卷积、自注意力机制!...

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们01我和欧阳娜娜一起搞研发AI新闻播报,开车明星导航,现如今根据文本生成语音的AI技术

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们

01

我和欧阳娜娜一起搞研发

AI新闻播报,开车明星导航,现如今根据文本生成语音的AI技术,那真是飞入寻常百姓家——见怪不怪了。

在这档口,作为这背后AI语音合成技术的研发人员,除了常规收集语音数据、训练模型、优化模型……

还能玩出什么花儿来?

……跟欧阳娜娜一起搞研发,算不算?(误)

如何把欧阳娜娜的声音装进词典里

首先,需要工程师们采集欧阳娜娜的语音。

但很显然,他们本身不可能完整地去录制全部的语音。

甚至因为时间成本的关系,最后能真正喂给TTS(语音合成)模型的源语音也非常有限:几个小时的录音,最后能用的可能只有一小部分。

要用极少的数据,最终合成出高质量的语音,从采集训练数据开始,就要做到严格的把控。

单词和句子所需要的语音合成效果不同,在建模方面需要分别进行调整。

同时,针对模型本身,工程师们进行了多次对比实验,包括经典的基于注意力的Tacotron2模型,业内最新的Non-Attention架构等,以期实现最接近欧阳娜娜本人声音质感,同时发音准确、地道的合成效果。

而除了模型方面的精挑细选、精细打磨,值得一提的是,工程师们在此次AI语音算法的新明星语音新增了大量高采样率的英文女声数据,将采样率从16K提升到了24K,这就让合成语音在音质、听感和真实性方面有了进一步的提升。

私以为是欧阳娜娜本娜没错了。

信息来源:量子位

02

超越卷积、自注意力机制:强大的神经网络新算子involution

本文是对CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的介绍,同时也分享一些对网络结构设计(CNN和Transformer)的理解。

贡献点简单来讲:

  • 提出了一种新的神经网络算子(operator或op)称为involution,它比convolution更轻量更高效,形式上比self-attention更加简洁,可以用在各种视觉任务的模型上取得精度和效率的双重提升。

  • 通过involution的结构设计,能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。

  • 论文链接:

    https://arxiv.org/abs/2103.06255

  • 代码和模型链接:

    https://github.com/d-li14/involution

总体来讲:

  • 参数量、计算量降低,性能反而提升

  • 能加在各种模型的不同位置替换convolution,比如backbone,neck和head,一般来讲替换的部分越多,模型性价比越高。

这篇工作也留了一些坑供大家进一步探索:

  1. 关于广义的involution中kernel生成函数空间进一步的探索;

  2. 类似于deformable convolution加入offest生成函数,使得这个op空间建模能力的灵活性进一步提升;

  3. 结合NAS的技术搜索convolution-involution混合结构(原文Section 4.3);

  4. 在上文论述了self-attention只是一种表达形式,但希望(self-)attention机制能够启发设计更好的视觉模型,类似地detection领域最近不少好的工作,也从DETR的架构中获益匪浅。

希望2021年backbone网络结构设计能有更本质,更多元的发展!

信息来源:机器之心

03

快来尝鲜!移动开发者实现AI业务的必选神器——飞桨移动端部署工具LiteKit

LiteKit提供视频超分、人像分割、手势识别等一系列AI能力,这些AI能力均来自于百度各个业务线AI场景多年的技术沉淀,并以SDK的形式提供,做到了开箱即用

即使是没有任何AI实践的APP开发者,只需通过调用两三个简单API连接LiteKit提供的SDK软件包,就可以顺利接入AI能力。就像拆开快递箱一样简单,打开箱子就可以直接用。

你可以把SDK想象成一个虚拟的程序包,在这个程序包中有一份做好的软件功能,这份程序包几乎是全封闭的,只有一个小小接口可以连通外界,而这个接口就是API。

LiteKit的接入只需要创建、推理、释放三步即可完成AI能力的开发。虽然对于视频超分、人像分割、手势识别,甚至包括未来将要开源的新AI能力,输入输出会各有不同,但是整体流程和API的样式都被抽象成类似的步骤,甚至API的命名都会保持高度一致,让学习成本降到最低。

内容持续更新中,最新内容可以访问此链接获取。

https://github.com/PaddlePaddle/LiteKit

想进一步了解LiteKit的小伙伴,可以上Github点star并查看完整文档及Demo。

信息来源:飞桨PaddlePaddle

04

每天生产45亿词!GPT-3已渗透进300+应用中,网友:边吃边拉

现在,GPT-3每天都生产约45亿个词!

用来做什么?

例如,让曾经“只能看不能撩”的动画角色,通过GPT-3,隔空与你对话。

甚至ta还能看着自己出演的电影,和你“吐槽”电影里面的情节。

但GPT-3可不会只和你一个人聊天,它还同时做着不少事情。

毕竟,它现在可是个大忙人。

每天生产45亿个词

GPT-3就像是一个“大型文字生产机”,每天平均得产出约45亿个词。

而且,这个量还会越来越大。

具体用在什么地方?

分析需求、洞察情绪、扮演虚拟角色、充当搜索引擎……

只要是语言模型能做到的事情,GPT-3都能做,也还做的不错。

不断进化的GPT-3

GPT-3目前已经增加了许多新功能。

其中之一,就是回答端口(answer endpoint)。

采用这一功能的话,你只需要将相关信息告诉GPT-3,例如文档、或者数据库,它就能代替你回答客户的问题。

网友:边拉边吃

在OpenAI公布的这一结果后,许多网友更期待用上GPT-3了。

但也有网友认为,这种现象令人担忧。

因为GPT-3正在成为生产垃圾邮件、虚假信息的最佳选择,更何况以每天45亿个词的速度。

也有网友表示,这种情况下,更要做好分离,不然后果难以想象。

然而,如果GPT-3每天都得生产45亿个词的话,那么不久的将来,它也许就得开始用自己写的东西训练。

有网友吐槽:简直像是边拉边吃……

确实让人有种不好的预感。

信息来源:量子位

05

显卡暴涨,等等党输了,这我万万没想到啊

万万没想到,去年信心满满准备好钱包要买30系显卡的我,现在连1660Ti都快买不起了。

不仅官方原价3899的RTX 3070,一路狂涨到了8000以上的价格,成功以一卡之力斩次时代主机PS5于马下。

连早已停产古董级10系显卡,都实现了完美保值,4年过去还能以接近原价的价格二手出售。

说好的等等党永不为奴呢?

这一次价格暴涨甚至惊动了央视,显卡话题连续登上多档新闻节目。

英伟达在做什么

在今年2月份RTX 3060发布前夕,英伟达为了让玩家买到显卡,决定把3060的挖矿效率限制在50%,同时计划推出专用矿卡CMP系列。

但很快解锁驱动又被官方意外放出,3060也不可避免地加入了缺货、涨价的队伍。

而矿卡系列本身,虽然涨得没有游戏卡夸张,但也……

矿卡中的最低端型号30HX近日开卖,720美元的初始售价迅速被突破,已上涨到815美元

这价格,比起与其算力和功耗都相仿的游戏显卡GTX 1660s还要贵上一些,再加上阉割了图形输出接口难以二次销售,恐怕也很难让矿老板们放过游戏显卡。

另一方面,英伟达把旗下云游戏服务GeForce Now的价格直接翻倍,即使你买不到显卡想玩云游戏,也会被收割一波。

英特尔下场,I卡来了

对了,英特尔也宣布将在美国时间3月26日发布全新游戏显卡Xe HPG系列。

共有6个型号,据爆料最高配型号将搭载512个执行单元、4096个流处理器,核心频率 1800MHz,16GB的GDDR6显存。

对此有网友评价,只要英特尔做到有货,哪怕性能弱一些也能躺赢显卡战争。

信息来源:量子位

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END


推荐阅读
  • 堆是一种常见的数据结构,广泛应用于计算机科学领域。它通常表示为一棵完全二叉树,并可通过数组实现。堆的主要特性是每个节点的值与其父节点的值之间存在特定的关系,这使得堆在优先队列和排序算法中非常有用。 ... [详细]
  • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
  • VPX611是北京青翼科技推出的一款采用6U VPX架构的高性能数据存储板。该板卡搭载两片Xilinx Kintex-7系列FPGA作为主控单元,内置RAID控制器,支持多达8个mSATA盘,最大存储容量可达8TB,持续写入带宽高达3.2GB/s。 ... [详细]
  • 尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络(RNN)的门槛,但对于初学者来说,理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理(NLP)的RNN模型。 ... [详细]
  • Scala 实现 UTF-8 编码属性文件读取与克隆
    本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件,并实现属性文件的克隆功能。通过这种方式,可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 为了解决不同服务器间共享图片的需求,我们最初考虑建立一个FTP图片服务器。然而,考虑到项目是一个简单的CMS系统,为了简化流程,团队决定探索七牛云存储的解决方案。本文将详细介绍使用七牛云存储的过程和心得。 ... [详细]
  • 探讨ChatGPT在法律和版权方面的潜在风险及影响,分析其作为内容创造工具的合法性和合规性。 ... [详细]
  • 洞态IAST Java Agent 实现AOP技术详解
    本文深入探讨了洞态IAST Java Agent如何通过AOP技术实现方法调用链和污点值传播等功能,为读者提供了详细的源码分析。 ... [详细]
  • 深入浅出TensorFlow数据读写机制
    本文详细介绍TensorFlow中的数据读写操作,包括TFRecord文件的创建与读取,以及数据集(dataset)的相关概念和使用方法。 ... [详细]
  • 本文探讨了如何使用pg-promise库在PostgreSQL中高效地批量插入多条记录,包括通过事务和单一查询两种方法。 ... [详细]
  • ML学习笔记20210824分类算法模型选择与调优
    3.模型选择和调优3.1交叉验证定义目的为了让模型得精度更加可信3.2超参数搜索GridSearch对K值进行选择。k[1,2,3,4,5,6]循环遍历搜索。API参数1& ... [详细]
  • 本文详细介绍了如何正确安装Java EE SDK,并解决在安装过程中可能遇到的问题,特别是关于servlet代码在Apache Tomcat 10中无法运行的情况。 ... [详细]
  • 5G至4G空闲态移动TAU流程解析
    本文详细解析了用户从5G网络移动到4G网络时,在空闲态下触发的跟踪区更新(TAU)流程。通过N26接口实现无缝迁移,确保用户体验不受影响。 ... [详细]
  • 通过与阿里云的合作,牛客网成功解决了跨国视频面试中的网络卡顿问题,为求职者和面试官提供了更加流畅的沟通体验。 ... [详细]
author-avatar
caiyafang4376
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有