当前位置: 开发笔记 > 编程语言 > 正文

本周AI热点回顾：和欧阳娜娜一起搞研发？强大的神经网络新算子involution，超越卷积、自注意力机制！...

作者：caiyafang4376 | 来源：互联网 | 2023-10-09 19:54

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们01我和欧阳娜娜一起搞研发AI新闻播报，开车明星导航，现如今根据文本生成语音的AI技术

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们

我和欧阳娜娜一起搞研发

AI新闻播报&＃xff0c;开车明星导航&＃xff0c;现如今根据文本生成语音的AI技术&＃xff0c;那真是飞入寻常百姓家——见怪不怪了。

在这档口&＃xff0c;作为这背后AI语音合成技术的研发人员&＃xff0c;除了常规收集语音数据、训练模型、优化模型……

还能玩出什么花儿来&＃xff1f;

……跟欧阳娜娜一起搞研发&＃xff0c;算不算&＃xff1f;&＃xff08;误&＃xff09;

如何把欧阳娜娜的声音装进词典里

首先&＃xff0c;需要工程师们采集欧阳娜娜的语音。

但很显然&＃xff0c;他们本身不可能完整地去录制全部的语音。

甚至因为时间成本的关系&＃xff0c;最后能真正喂给TTS&＃xff08;语音合成&＃xff09;模型的源语音也非常有限&＃xff1a;几个小时的录音&＃xff0c;最后能用的可能只有一小部分。

要用极少的数据&＃xff0c;最终合成出高质量的语音&＃xff0c;从采集训练数据开始&＃xff0c;就要做到严格的把控。

单词和句子所需要的语音合成效果不同&＃xff0c;在建模方面需要分别进行调整。

同时&＃xff0c;针对模型本身&＃xff0c;工程师们进行了多次对比实验&＃xff0c;包括经典的基于注意力的Tacotron2模型&＃xff0c;业内最新的Non-Attention架构等&＃xff0c;以期实现最接近欧阳娜娜本人声音质感&＃xff0c;同时发音准确、地道的合成效果。

而除了模型方面的精挑细选、精细打磨&＃xff0c;值得一提的是&＃xff0c;工程师们在此次AI语音算法的新明星语音新增了大量高采样率的英文女声数据&＃xff0c;将采样率从16K提升到了24K&＃xff0c;这就让合成语音在音质、听感和真实性方面有了进一步的提升。

私以为是欧阳娜娜本娜没错了。

信息来源&＃xff1a;量子位

超越卷积、自注意力机制&＃xff1a;强大的神经网络新算子involution

本文是对CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的介绍&＃xff0c;同时也分享一些对网络结构设计&＃xff08;CNN和Transformer&＃xff09;的理解。

贡献点简单来讲&＃xff1a;

提出了一种新的神经网络算子&＃xff08;operator或op&＃xff09;称为involution&＃xff0c;它比convolution更轻量更高效&＃xff0c;形式上比self-attention更加简洁&＃xff0c;可以用在各种视觉任务的模型上取得精度和效率的双重提升。
通过involution的结构设计&＃xff0c;能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。

论文链接&＃xff1a;
https://arxiv.org/abs/2103.06255
代码和模型链接&＃xff1a;
https://github.com/d-li14/involution

总体来讲&＃xff1a;

参数量、计算量降低&＃xff0c;性能反而提升
能加在各种模型的不同位置替换convolution&＃xff0c;比如backbone&＃xff0c;neck和head&＃xff0c;一般来讲替换的部分越多&＃xff0c;模型性价比越高。

这篇工作也留了一些坑供大家进一步探索&＃xff1a;

关于广义的involution中kernel生成函数空间进一步的探索&＃xff1b;
类似于deformable convolution加入offest生成函数&＃xff0c;使得这个op空间建模能力的灵活性进一步提升&＃xff1b;
结合NAS的技术搜索convolution-involution混合结构&＃xff08;原文Section 4.3&＃xff09;&＃xff1b;
在上文论述了self-attention只是一种表达形式&＃xff0c;但希望(self-)attention机制能够启发设计更好的视觉模型&＃xff0c;类似地detection领域最近不少好的工作&＃xff0c;也从DETR的架构中获益匪浅。

希望2021年backbone网络结构设计能有更本质&＃xff0c;更多元的发展&＃xff01;

信息来源&＃xff1a;机器之心

快来尝鲜&＃xff01;移动开发者实现AI业务的必选神器——飞桨移动端部署工具LiteKit

LiteKit提供视频超分、人像分割、手势识别等一系列AI能力&＃xff0c;这些AI能力均来自于百度各个业务线AI场景多年的技术沉淀&＃xff0c;并以SDK的形式提供&＃xff0c;做到了开箱即用。

即使是没有任何AI实践的APP开发者&＃xff0c;只需通过调用两三个简单API连接LiteKit提供的SDK软件包&＃xff0c;就可以顺利接入AI能力。就像拆开快递箱一样简单&＃xff0c;打开箱子就可以直接用。

你可以把SDK想象成一个虚拟的程序包&＃xff0c;在这个程序包中有一份做好的软件功能&＃xff0c;这份程序包几乎是全封闭的&＃xff0c;只有一个小小接口可以连通外界&＃xff0c;而这个接口就是API。

LiteKit的接入只需要创建、推理、释放三步即可完成AI能力的开发。虽然对于视频超分、人像分割、手势识别&＃xff0c;甚至包括未来将要开源的新AI能力&＃xff0c;输入输出会各有不同&＃xff0c;但是整体流程和API的样式都被抽象成类似的步骤&＃xff0c;甚至API的命名都会保持高度一致&＃xff0c;让学习成本降到最低。

内容持续更新中&＃xff0c;最新内容可以访问此链接获取。

https://github.com/PaddlePaddle/LiteKit

想进一步了解LiteKit的小伙伴&＃xff0c;可以上Github点star并查看完整文档及Demo。

信息来源&＃xff1a;飞桨PaddlePaddle

每天生产45亿词&＃xff01;GPT-3已渗透进300&＃43;应用中&＃xff0c;网友&＃xff1a;边吃边拉

现在&＃xff0c;GPT-3每天都生产约45亿个词&＃xff01;

用来做什么&＃xff1f;

例如&＃xff0c;让曾经“只能看不能撩”的动画角色&＃xff0c;通过GPT-3&＃xff0c;隔空与你对话。

甚至ta还能看着自己出演的电影&＃xff0c;和你“吐槽”电影里面的情节。

但GPT-3可不会只和你一个人聊天&＃xff0c;它还同时做着不少事情。

毕竟&＃xff0c;它现在可是个大忙人。

每天生产45亿个词

GPT-3就像是一个“大型文字生产机”&＃xff0c;每天平均得产出约45亿个词。

而且&＃xff0c;这个量还会越来越大。

具体用在什么地方&＃xff1f;

分析需求、洞察情绪、扮演虚拟角色、充当搜索引擎……

只要是语言模型能做到的事情&＃xff0c;GPT-3都能做&＃xff0c;也还做的不错。

不断进化的GPT-3

GPT-3目前已经增加了许多新功能。

其中之一&＃xff0c;就是回答端口&＃xff08;answer endpoint&＃xff09;。

采用这一功能的话&＃xff0c;你只需要将相关信息告诉GPT-3&＃xff0c;例如文档、或者数据库&＃xff0c;它就能代替你回答客户的问题。

网友&＃xff1a;边拉边吃

在OpenAI公布的这一结果后&＃xff0c;许多网友更期待用上GPT-3了。

但也有网友认为&＃xff0c;这种现象令人担忧。

因为GPT-3正在成为生产垃圾邮件、虚假信息的最佳选择&＃xff0c;更何况以每天45亿个词的速度。

也有网友表示&＃xff0c;这种情况下&＃xff0c;更要做好分离&＃xff0c;不然后果难以想象。

然而&＃xff0c;如果GPT-3每天都得生产45亿个词的话&＃xff0c;那么不久的将来&＃xff0c;它也许就得开始用自己写的东西训练。

有网友吐槽&＃xff1a;简直像是边拉边吃……

确实让人有种不好的预感。

信息来源&＃xff1a;量子位

显卡暴涨&＃xff0c;等等党输了&＃xff0c;这我万万没想到啊

万万没想到&＃xff0c;去年信心满满准备好钱包要买30系显卡的我&＃xff0c;现在连1660Ti都快买不起了。

不仅官方原价3899的RTX 3070&＃xff0c;一路狂涨到了8000以上的价格&＃xff0c;成功以一卡之力斩次时代主机PS5于马下。

连早已停产古董级10系显卡&＃xff0c;都实现了完美保值&＃xff0c;4年过去还能以接近原价的价格二手出售。

说好的等等党永不为奴呢&＃xff1f;

这一次价格暴涨甚至惊动了央视&＃xff0c;显卡话题连续登上多档新闻节目。

英伟达在做什么

在今年2月份RTX 3060发布前夕&＃xff0c;英伟达为了让玩家买到显卡&＃xff0c;决定把3060的挖矿效率限制在50%&＃xff0c;同时计划推出专用矿卡CMP系列。

但很快解锁驱动又被官方意外放出&＃xff0c;3060也不可避免地加入了缺货、涨价的队伍。

而矿卡系列本身&＃xff0c;虽然涨得没有游戏卡夸张&＃xff0c;但也……

矿卡中的最低端型号30HX近日开卖&＃xff0c;720美元的初始售价迅速被突破&＃xff0c;已上涨到815美元。

这价格&＃xff0c;比起与其算力和功耗都相仿的游戏显卡GTX 1660s还要贵上一些&＃xff0c;再加上阉割了图形输出接口难以二次销售&＃xff0c;恐怕也很难让矿老板们放过游戏显卡。

另一方面&＃xff0c;英伟达把旗下云游戏服务GeForce Now的价格直接翻倍&＃xff0c;即使你买不到显卡想玩云游戏&＃xff0c;也会被收割一波。

英特尔下场&＃xff0c;I卡来了

对了&＃xff0c;英特尔也宣布将在美国时间3月26日发布全新游戏显卡Xe HPG系列。

共有6个型号&＃xff0c;据爆料最高配型号将搭载512个执行单元、4096个流处理器&＃xff0c;核心频率 1800MHz&＃xff0c;16GB的GDDR6显存。

对此有网友评价&＃xff0c;只要英特尔做到有货&＃xff0c;哪怕性能弱一些也能躺赢显卡战争。

信息来源&＃xff1a;量子位

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础&＃xff0c;是中国首个开源开放、技术领先、功能完备的产业级深度学习平台&＃xff0c;包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件&＃xff0c;持续开源核心能力&＃xff0c;为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台&＃xff0c;针对企业级需求增强了相应特性&＃xff0c;包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业&＃xff0c;提供零门槛、预置丰富网络和模型、便捷高效的开发平台&＃xff1b;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END

推荐阅读

ip
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
go
非公版RTX 3080显卡的革新与亮点

本文深入探讨了图形显卡的进化历程，重点介绍了非公版RTX 3080显卡的技术特点和创新设计。 ... [详细]

蜡笔小新 2024-12-28 13:07:40
go
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
go
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
range
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
数组
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
数组
对MariaDB未来发展的思考与担忧

本文探讨了MariaDB在当前数据库市场中的地位和挑战，分析其可能面临的困境，并提出了对未来发展的几点看法。 ... [详细]

蜡笔小新 2024-12-25 18:20:32
golang
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
数组
C语言实现小写金额转换为大写金额

在金融和会计领域，准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据，还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法，确保数据的标准化和规范化。 ... [详细]

蜡笔小新 2024-12-27 12:39:06
数组
理解感受野与锚框在目标检测中的应用

本文探讨了卷积神经网络（CNN）中感受野的概念及其与锚框（anchor box）的关系。感受野定义了特征图上每个像素点对应的输入图像区域大小，而锚框则是在每个像素中心生成的多个不同尺寸和宽高比的边界框。两者在目标检测任务中起到关键作用。 ... [详细]

蜡笔小新 2024-12-27 12:03:44
client
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
range
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
go
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
go
自学编程与计算机专业背景者的差异分析

本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处，结合实际案例分析两者的优势与劣势。 ... [详细]

蜡笔小新 2024-12-26 17:53:18
runtime
深入理解领域驱动设计及其实践

本文探讨了领域驱动设计（DDD）的核心概念、应用场景及其实现方式，详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型，展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]

蜡笔小新 2024-12-25 18:45:55

caiyafang4376

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章