当前位置: 开发笔记 > 编程语言 > 正文

【反内卷】开创全新AI多模态任务一视听分割：附原理、代码实践、优化教程（一）

作者：盼抽淡了烟的悲伤 | 来源：互联网 | 2023-08-10 09:39

前言文章原创，出自cv君，公众号：DeepAI视界gif不能发出声音，大家脑补一下场景。算法找到视频中的打击乐器和钢琴正在

前言

文章原创&＃xff0c;出自 cv君&＃xff0c;公众号&＃xff1a;DeepAI 视界

gif 不能发出声音&＃xff0c;大家脑补一下场景。算法找到视频中的打击乐器和钢琴正在发声

gif 不能发出声音&＃xff0c;大家脑补一下场景。算法找到视频中的救护车正在滴度滴度~

视听分割是本周ECCV定会提出的全新任务&＃xff0c;旨在&＃xff1a;找出画面中哪个位置正在发出声音&＃xff0c;这是一份多模态工作&＃xff0c;结合了视觉和语音。

这有啥用&＃xff1f;

直播推荐领域&＃xff1a;我们直播的推荐系统&＃xff0c;可能需要给正在表演才艺的cv君多一些推荐力度&＃xff0c;而一直抱着琴不弹的&＃xff0c;只在闲聊的、并且放着BGM的&＃xff0c;我们需要识别出来现在有没有进行才艺表演。有的朋友就说啦&＃xff01;用语音识别&＃xff0c;分类出在唱歌和不唱歌不就行了&＃xff1f; 反问&＃xff1a;如何用语音识别分类区分BGM和唱歌&＃xff1f;————视听分割、声源定位可以解决大家看下图。

智慧生活领域&＃xff1a;场景1&＃xff1a;禁止鸣笛的生活区的路边&＃xff0c;安安静静&＃xff0c;cv君躺在家里摆烂&＃xff0c;哪个扑街突然鸣笛&＃xff0c;抓&＃xff01;

场景2&＃xff1a;校园午休静校期间&＃xff0c;cv&＃xff0c;你特么怎么还在吵、还打球、打个球

场景3&＃xff1a;帮助视障人士

想法很简单&＃xff0c;但实现却很难&＃xff0c;如何让这两种信息参与学习而发挥作用呢&＃xff1f;下面我们一起来详细了解一下。

相似工作

近年来&＃xff0c;对音频和视觉图像的表征学习&＃xff08;audio-visual learning)吸引了很多关注&＃xff0c;也催生了很多任务&＃xff0c;比如视听匹配、视听事件定位、声源定位&＃xff08;Sound Source Localization, SSL)等等。前两者作为一个分类任务&＃xff0c;都可以归结于给定一张图像和一段音频&＃xff0c;判断二者是否描述同一个事件/物体&＃xff1b;声源定位想要定位到发声物体的大致区域&＃xff0c;趋近于目标检测&＃xff0c;但是是以热力图可视化的形式表示定位的结果。

尽管这些任务都很有趣&＃xff0c;但都不能够很好的勾勒出物体的形状&＃xff0c;离精细化的视听场景理解似乎还差临门一脚。为此&＃xff0c;视听分割任务提出要准确分割出视频帧中正在发声的物体全貌&＃xff0c;即以音频为指导信号&＃xff0c;确定分割哪个物体并得到其完整的像素级掩码图&＃xff0c;如图1所示&＃xff1a;

意思就是&＃xff0c;以前的工作&＃xff08;第三行&＃xff0c;SSL行&＃xff09;只能知道哪里可能发出了声音&＃xff0c;现在&＃xff08;第四行AVS&＃xff09;可以端到端的对整个物体识别了&＃xff0c;识别&＃xff1a;哪个物体在哪里发出了这种声音。

作者公布了一份多声源地数据&＃xff0c;和单声源的数据&＃xff0c;单源子集包含4932个视频&＃xff0c;共23个类别&＃xff0c;涵盖人类、动物、交通工具和乐器等日常生活中典型的发声物体&＃xff0c;详细的类别和视频数据分布如图2所示。对于多源子集&＃xff0c;作者从单源子集的类别中选择有效的2-3个作为关键词组合&＃xff0c;从YouTube平台人工检索视频&＃xff0c;在约6000余视频中筛选出424个作为多源视频。

核心方法

本文作者提出了一个端到端的视听分割模型AVS&＃xff0c;如图所示&＃xff0c;其遵循编码器-解码器的网络架构&＃xff0c;输入视频帧&＃xff0c;最终直接输出分割掩码。

cv君看了代码&＃xff0c;简单说就是&＃xff1a;

1、使用Renset50或者使用更大更准的任何特征提取网络&＃xff08;作者还用了PVT-v2的transformer网络&＃xff09;做视觉表征的提取

2、使用VGGish提取音频梅尔图的表征信息

3、视觉特征与音频特征经过ASPP池化&＃xff0c;维度合并送入作者提出的TPAVI模块&＃xff0c;送入下一个编码层。

4、特征解码器&＃xff0c;输出原图像尺寸的预测mask图

5、引入多个BCE Loss 和作者提出的掩码视听匹配Loss

具体而言&＃xff0c;在编码器中&＃xff0c;视频帧的多层级特征图可以通过经典CNN或已经屠榜各大任务的Transformer网络提取&＃xff08;作者测试了ResNet50和PVT-v2两种结构&＃xff09;&＃xff1b;音频的特征可以通过VGGish&＃xff0c;一种类似VGG的网络提取。其次&＃xff0c;视频帧特征图被送入分割模型中常用的层级池化空洞卷积模块&＃xff08;ASPP&＃xff09;进行进一步编码。紧接着&＃xff0c;编码的视频帧特征和音频特征被送入所提出的TPAVI模块&＃xff0c;其考虑时序的音频和视频帧像素间的联系&＃xff0c;引入音频信息指导分割。经过TPAVI模块的视频帧特征期望能够在与音频对应/匹配的区域被增强。最后&＃xff0c;编码的特征被送入解码器进行分步解码&＃xff0c;最终产生和原始输入分辨率相同大小的分割掩码图。

网络的优化目标分为两部分&＃xff0c;一部分是基础的交叉熵损失函数&＃xff0c;计算预测图和真实标签的损失。另一部分&＃xff0c;作者针对多源情况提出了一个掩码视听匹配损失函数&＃xff0c;用于约束预测掩码对应的视频帧特征&＃xff08;发声物体&＃xff09;和音频特征分布在特征空间中保持相似分布。

与其他多模态方法相比的亮点&＃xff1a;TPAVI模块加成较多&＃xff0c;掩码视听匹配Loss有一定加成

亮点介绍

TPAVI模块

TPAVI模块将第i级视觉特征Vi和音频特征A作为输入。彩色框表示1×1×1卷积&＃xff0c;而黄色框表示reshape操作。“符号”⊗” 和

“⊕” 分别表示矩阵乘法和元素加法。

虽然声源的听觉和视觉信号可能不会同时出现&＃xff0c;但它们通常存在于多个视频帧中。因此对整个视频的音频和视频信号进行视觉分割应该是有益的。我们采用了编码时间像素级视听交互&＃xff08;TPAVI&＃xff09;。如上图所示&＃xff0c;整个视频的当前视觉特征图Vi和音频特征A被发送到TPAVI模块中。具体而言&＃xff0c;首先将音频特征A转换为与视觉特征Vi具有相同维度的特征空间通过线性层。然后&＃xff0c;将其在空间上复制hi*wi次&＃xff0c;并重新整形为与Vi相同的大小我们将这种处理后的音频特征表示为Aˆ。接下来&＃xff0c;期望在整个视频中找到对音频对应物aˆ具有高响应的视觉特征图Vi的那些像素。这样的视听交互可以通过点积来测量&＃xff0c;在第i阶段更新的特征图Zi可以计算为&＃xff1a;

其中θ、ψ、g和µ是1×1×1卷积&＃xff0c;N&＃61;T×hi×wi是归一化因子&＃xff0c;αi表示视听相似性&＃xff0c;Zi表示∈ R T×hi×wi×C。每个视觉像素通过TPAVI模块与所有音频交互。我们在图10后面提供了TPAVI中视听注意力的可视化&＃xff0c;它显示了与SSL方法预测类似的“外观”&＃xff0c;因为它构建了像素到音频的映射。

解码器&＃xff1a;我们在这项工作中采用了全景FPN[19]的解码器&＃xff0c;因为它具有灵活性和有效性&＃xff0c;尽管可以使用任何有效的解码器架构。

简言之&＃xff0c;在第j级&＃xff0c;其中j&＃xff1d;2、3、4&＃xff0c;来自级Z5的两个输出−j和最后一级Z6−j用于解码过程。然后将解码的特征上采样到下一阶段。解码器的最终输出是M∈ rt×H×W&＃xff0c;由乙状结肠激活。

掩码视听匹配Loss

目标函数&＃xff1a;给定预测M和像素标记Y&＃xff0c;我们采用二进制交叉熵&＃xff08;BCE&＃xff09;损失作为主要监督函数。

此外&＃xff0c;我们还使用了一个额外的正则化项LAVM来强制进行视听映射。具体而言&＃xff0c;我们使用Kullback–Leibler&＃xff08;KL&＃xff09;散度来确保掩蔽的视觉特征与相应的音频特征具有相似的分布。换句话说&＃xff0c;如果某些帧的音频特征在特征空间中接近&＃xff0c;则相应的发声对象在特征空间中将接近。总目标函数L可以如下计算&＃xff1a;

其中λ是平衡重量&＃xff0c;⊙ avg表示平均池运算。在每个阶段&＃xff0c;我们通过平均池对预测M到Mi进行下采样&＃xff0c;使其具有与Zi相同的形状

矢量Ai是与Zi具有相同特征维数的a的线性变换

对于半监督S4设置&＃xff0c;我们发现视听正则化损失没有帮助&＃xff0c;因此在此设置中设置λ&＃61;0。

实验结论

代码刚开源几天&＃xff0c;cv君仔细看了代码&＃xff0c;并且已经无压力运行了&＃xff0c;大家有问题可以咨询我&＃xff0c;免费。作者基于Resnet50做Backbone 在多声源数据中得到了47.88分&＃xff0c;cv君通过多次复现&＃xff0c;得到了这个分数接近的分数&＃xff0c;但是不稳定&＃xff0c;有时候得到44分&＃xff0c;又时候46分有时候47.2分&＃xff0c;cv君通过自研的搜索框架&＃xff0c;不增长任何Flops分数已经达到了49.70分&＃xff0c;增加了2个点。&＃xff08;可见作者还是给出了baseline&＃xff09;&＃xff0c;不过最近作者又准备了10倍大的新模型。

可以发现&＃xff0c;在PVT-v2的框架下&＃xff0c;得分很高&＃xff0c;说明了transformer很猛&＃xff0c;不过Flops更高&＃xff0c;没毛病。

可以看到分割效果很好&＃xff0c;大家可以看我的视频分析&＃xff0c;因为论文中不能发视频&＃xff0c;哈哈哈&＃xff0c;上图展示了其他方法和现在方法的对比。

上图展示了多声音情况下的效果&＃xff0c;大家要看视频才知道&＃xff1a;意思是&＃xff0c;前2帧只有小孩在说话&＃xff0c;后3帧孩子和狗都在发声。

而LGVT方法却无法分辨。

最后作者还比较了其他两阶段方法&＃xff0c;和他的AVS方法的对比。远好于两阶段方法&＃xff1a;该方法首先通过现成的掩码R-CNN生成实例分割图&＃xff0c;然后结合音频信号进行最终探测对象分割。性能不受分割质量的制约&＃xff08;使用不同的掩码RCNN主干&＃xff09;&＃xff0c;但在很大程度上受音频信号的影响。

TPAVI模块用于从时间和像素层面制定视听交互&＃xff0c;引入音频信息以探索视觉分割。我们进行了一项消融研究&＃xff0c;以探索其影响&＃xff0c;如表所示。

两行显示了有或没有TPAVI模块的拟议AVS方法&＃xff0c;而“A”⊕V”表示直接将音频添加到视觉功能。应注意的是&＃xff0c;将音频特征添加到视觉特征不会导致S4设置下的明显差异&＃xff0c;但会导致MS3 14 J.Zhou等人的明显增益。

表5.音频信号和TPAVI的影响。带和不带TPAVI模块的AVS结果&＃xff08;mIoU&＃xff09;。中间一行表示直接添加音频和视频功能&＃xff0c;这已经提高了MS3设置下的性能。TPAVI模块进一步增强了所有设置的结果

这是引入TPAVI的对比&＃xff0c;可以看到倒数两行&＃xff0c;开枪的声音分割&＃xff0c;精确到了枪体&＃xff0c;而非人体。

视听注意力的可视化。

Loss 的对比。

在未训练过的数据中测试&＃xff0c;分割也不错。

总结

这是一份多模态工作&＃xff0c;这两年多模态开始热门了&＃xff0c;但工作还是出得很少&＃xff0c;这是一篇比较优质的工作&＃xff0c;已经被ECCV接受了&＃xff0c;工作量给9分&＃xff0c;创新程度给8分&＃xff0c;有趣程度给10分&＃xff0c;代码质量给7分。不足的是&＃xff0c;其实可以直接搞成多类别分割。更精准。难度不大&＃xff0c;cv君有空会做一下。

论文地址&＃xff1a;

https://arxiv.org/abs/2207.05042

GitHub地址&＃xff1a;

GitHub - OpenNLPLab/AVSBench: Official implementation of the ECCV2022 paper: Audio-Visual Segmentation

项目主页&＃xff1a;

AVSBench

理论视频分析&＃43;代码解读&＃43;训练教程&＃43;视频教程&＃43;推理教程&＃43;优化教程见【下一篇文章】~https://blog.csdn.net/qq_46098574/article/details/126255334

推荐阅读

blob
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
int
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
list
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
int
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
shell
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
list
macOS 上 Visual Studio Code 的安装与配置指南

Visual Studio Code (VSCode) 是一款功能强大的源代码编辑器，支持多种编程语言，具备丰富的扩展生态。本文将详细介绍如何在 macOS 上安装、配置并使用 VSCode。 ... [详细]

蜡笔小新 2024-11-12 19:45:55
cmd
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
cmd
全面升级的中文PubMed——Medreading

Medreading 是一款由科研者之家（HOME for Researchers）推出的中文版PubMed，提供强大的文献检索和分析功能，支持AI辅助全文下载。 ... [详细]

蜡笔小新 2024-11-12 12:35:26
char
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
timezone
C#中数值结果的格式化展示方法与技巧

在C#编程中，数值结果的格式化展示是提高代码可读性和用户体验的重要手段。本文探讨了多种格式化方法和技巧，如使用格式说明符、自定义格式字符串等，以实现对数值结果的精确控制。通过实例演示，展示了如何灵活运用这些技术来满足不同的展示需求。 ... [详细]

蜡笔小新 2024-11-11 09:27:57
filter
ElasticStack 日志监控：Logstash 编码插件详解与生产环境应用实例分析

在ElasticStack日志监控系统中，Logstash编码插件自5.0版本起进行了重大改进。插件被独立拆分为gem包，每个插件可以单独进行更新和维护，无需依赖Logstash的整体升级。这不仅提高了系统的灵活性和可维护性，还简化了插件的管理和部署过程。本文将详细介绍这些编码插件的功能、配置方法，并通过实际生产环境中的应用案例，展示其在日志处理和监控中的高效性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 19:27:28
list
在List和Set集合中存储Object类型的数据元素

在List和Set集合中存储Object类型的数据元素 ... [详细]

蜡笔小新 2024-11-09 18:55:32
int
如何在C#中配置组合框的背景颜色？

如何在C#中配置组合框的背景颜色？ ... [详细]

蜡笔小新 2024-11-08 13:06:59
blob
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03
require
MySQL 正则表达式深入解析：REGEXP 功能与应用详解

在探讨 MySQL 正则表达式 REGEXP 的功能与应用之前，我们先通过一个小实验来对比 REGEXP 和 LIKE 的性能。通过具体的代码示例，我们将评估这两种查询方式的效率，以确定 REGEXP 是否值得深入研究。实验结果将为后续的详细解析提供基础。 ... [详细]

蜡笔小新 2024-11-07 16:02:12

盼抽淡了烟的悲伤

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章