正文

听声辨物，这是ai视觉该干的？？？｜eccv2022

QbitAl  QbitAl  2022-11-30  652

关键词：

衡宇发自凹非寺
量子位 | 公众号 QbitAI

听到“唔哩——唔哩——”的警笛声，你可以迅速判断出声音来自路过的一辆急救车。

能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢？

来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务（Audio-Visual Segmentation, AVS)。

视听分割，就是要分割出发声物，而后生成发声物的精细化分割图。

相应的，研究人员提出了第一个具有像素级标注的视听数据集AVSBench。

新任务、新的数据集，搞算法的又有新坑可以卷了。

据最新放榜结果，该论文已被ECCV 2022接受。

精准锁定发声物

听觉和视觉是人类感知世界中最重要的两个传感器。生活里，声音信号和视觉信号往往是互补的。

视听表征学习（audio-visual learning）已经催生了很多有趣的任务，比如视听通信（AVC）、视听事件定位（AVEL）、视频解析（AVVP）、声源定位（SSL）等。

这里面既有判定音像是否描述同一事件/物体的分类任务，也有以热力图可视化大致定位发声物的任务。

但无论哪一种，离精细化的视听场景理解都差点意思。

△ AVS 任务与 SSL 任务的比较

视听分割“迎难而上”，提出要准确分割出视频帧中正在发声的物体全貌——

即以音频为指导信号，确定分割哪个物体，并得到其完整的像素级掩码图。

AVSBench 数据集

要怎么研究这个新任务呢？

鉴于当前还没有视听分割的开源数据集，研究人员提出AVSBench 数据集，借助它研究了新任务的两种设置：

1、单声源（Single-source）下的视听分割
2、多声源（Multi-sources）下的视听分割

数据集中的每个视频时长5秒。

单声源子集包含23类，共4932个视频，包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。

△AVSBench单源子集的数据分布

多声源子集则包含了424个视频。

结合难易情况，单声源子集在半监督条件下进行，多声源子集则以全监督条件进行。

研究人员对AVSBench里的每个视频等间隔采样5帧，然后人工对发声体进行像素级标注。

对于单声源子集，仅标注采样的第一张视频帧；对于多声源子集，5帧图像都被标注——这就是所谓的半监督和全监督。

△对单声源子集和多声源子集进行不同人工标注

这种像素级的标注，避免了将很多非发声物或背景给包含进来，从而增加了模型验证的准确性。

一个简单的baseline方法

有了数据集，研究人员还抛砖引玉，在文中给了个简单的baseline。

吸收传统语义分割模型的成功经验，研究人员提出了一个端到端的视听分割模型。

△视听分割框架图

这个模型遵循编码器-解码器的网络架构，输入视频帧，最终直接输出分割掩码。

另外，还有两个网络优化目标。

一是计算预测图和真实标签的损失。

而针对多声源情况，研究人员提出了掩码视听匹配损失函数，用来约束发声物和音频特征在特征空间中保持相似分布。

部分实验结果

光说不练假把式，研究人员进行了广泛实验。

首先，将视听分割与相关任务的6种方法进行了比较，研究人员选取了声源定位（SSL）、视频物体分割（VOS）、显著性物体检测（SOD）任务上的各两个SOTA方法。

实验结果表明，视听分割在多个指标下取得了最佳结果。

△和来自相关任务方法进行视听分割的对比结果

其次，研究人员进行了一系列消融实验，验证出，利用TPAVI模块，单声源和多声源设置下采用两种backbone的视听分割模型都能得到更大的提升。

△引入音频的TPAVI模块，可以更好地处理物体的形状细节（左图），并且有助于分割出正确的发声物（右图）

对于新任务的视听匹配损失函数，实验还验证了其有效性。

△视听匹配损失函数的有效性

One More Thing

文中还提到，AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试，其也可以用于验证声源定位模型。

研究人员在项目主页上表示，正在准备比AVSBench大10倍的AVSBench-v2。

一些视频的分割demo也上传在主页上。感兴趣的话可以前往查看~

论文地址：

https://arxiv.org/abs/2207.05042

GitHub地址：

https://github.com/OpenNLPLab/AVSBench

项目主页：

https://opennlplab.github.io/AVSBench/

cvpr，iccv和eccv，计算机视觉三大顶级盛会

简介：https://blog.csdn.net/hualitlc/article/details/11099693近几年ICCV，CVPR,和ECCV论文列表：https://www.xuebuyuan.com/442559.html 查看详情

acmmm&eccv2022|美团视觉8篇论文揭秘内容领域的智能科技

人工智能技术正在成为内容领域的中台力量，其中视觉AI已经渗透到内容生产、内容审核、内容分发、用户互动、商业化变现等各个环节。美团视觉智能部以场景化的内容产品、智能化的内容工具助力产业，在内容的创作... 查看详情

eccv2022｜计算机视觉中的长尾分布问题还值得做吗(代码片段)

点击上方“迈微AI研习社”，选择“星标★”公众号重磅干货，第一时间送达公众号主页有分类专栏，希望你可以看看。长尾分类领域最近的“进展”到底提升的是什么？长尾分布相关的问题后续还能不能做？... 查看详情

eccv2022｜计算机视觉中的长尾分布问题还值得做吗(代码片段)

李彦宏一声「萝卜快跑」，中国首个无人车出行app就位！网友：这才是科技公司该干的事儿...

贾浩楠发自凹非寺量子位报道|公众号QbitAI一直有“黑科技大会”之称的百度世界大会，又上新了。这不是变形金刚，而是吸睛无数的汽车机器人，是未来出行方式和汽车乘坐体验的新形态。直观理解就是高级交互体... 查看详情

eccv2020优秀论文汇总|涉及点云处理3d检测识别三维重建立体视觉姿态估计深度估计sfm等方向

作者：TomHardy来源：公众号@3D视觉工坊链接：ECCV2020优秀论文汇总|涉及点云处理、3D检测识别、三维重建、立体视觉、姿态估计、深度估计、SFM等方向前言ECCV2020的oral和spotlight名单已经发布，与往年相比，acceptedpaperlist中增加了很... 查看详情

你没见过的《老友记》镜头，ai给补出来了｜eccv2022

明敏发自凹非寺量子位|公众号QbitAI诶？这是《老友记》流出未公开镜头了？还是“子弹时间”特效那种？只见人物定格的一瞬，机位丝滑运动，一个多角度全方位的厨房出现在了眼前，仿佛我人就站在现... 查看详情

2022全球ai模型周报

本周介绍了5个计算机视觉领域的SoTA模型，均于最近发表于2022年顶会CPVR和ECCV：RepLKNet特立独行专门研究大卷积核，PoolFormer表示Transformer的核心在于架构，ShuntedTransformer提出能够分流的新型注意力机制，QnA用学... 查看详情

eccv2022｜计算机视觉中的长尾分布问题还值得做吗(代码片段)

...;饱受了社会的毒打之后，让我们再次重新回到计算机视觉中的长尾分布这个我博士期间研究的主要问题上，看看2022年了这个方向是否还值得继续做下去。本文主要介绍我们今年被ECCV2022接受的论文《InvariantFeatureLearningforG... 查看详情

五篇值得阅读的eccv2020图像识别相关论文

...20oral【图像识别】相关论文。ECCV与CVPR、ICCV并称为计算机视觉领域三大顶会。ECCV2020共有5025篇投稿，其中1361篇被接受，接受率为27%。ECCV2020接受论文列表地址：https://eccv2020.eu/accepted-papers/第1篇：自适应学习网络宽度与输入分辨... 查看详情

ai美颜相关资源收集

...-aimagelab/dress-code:DressCode:High-ResolutionMulti-CategoryVirtualTry-On.ECCV2022 AI瘦身美型Paper:Structure-AwareFlowGenerationforHumanBodyReshaping Code:GitHub-JianqiangRen/FlowBasedBodyReshaping:Officialrepositoryofthepaper'Structure-AwareFlowGenerationforHumanBodyReshaping'inCVPR2... 查看详情

ai美颜相关资源收集

一个nerf搞定全尺度：港中大团队bungeenerf从单建筑到地球都能渲染｜eccv2022

Pine发自凹非寺量子位|公众号QbitAI你敢相信这是AI利用图像重建出来的3D场景吗？这么大规模的场景竟然还能保持这么高的清晰度，确定不是和谷歌地图搞错了？并没有！这是港中大团队提出的一个模型：BungeeNe... 查看详情

eccv2020五项大奖出炉！普林斯顿邓嘉获最佳论文奖

...！ECCV的全称是EuropeanConferenceonComputerVision(欧洲计算机视觉国际会议)，两年一次，与ICCV和CVPR并称计算机视觉三大会议。以下我们对各个大奖一一作介绍。 1 最佳论文奖获奖论文：《RAFT：RecurrentAll-Pair... 查看详情

eccv2020五项大奖出炉！普林斯顿邓嘉获最佳论文奖

2022年端边云协同的ai视觉产业研究报告

AI视觉丨研究报告核心摘要：AI视觉产业背景：AI视觉又称计算机视觉，得益于深度学习技术的快速发展，已于安防、金融、制造、零售等多领域实现规模化商用。2022年，AI视觉相关投融资热潮全面复苏，通... 查看详情

eccv2018|旷视科技提出gridface：通过学习局部单应变换实现人脸校正

全球计算机视觉三大顶会之一ECCV2018（EuropeanConferenceonComputerVision）即将于9月8-14日在德国慕尼黑拉开帷幕，旷视科技有多篇论文被此大会接收。在这篇论文中，旷视科技提出的一种通过学习局部单应变换实现人脸校正的全新方法... 查看详情

线上比赛中关于视觉ai组与信标组补充说明(代码片段)

...竞赛中，线上比赛地区（广东省、山东省）AI视觉组以及信标组中补充的信息。关键词：智能车竞赛，AI视觉组，信标组 §01AI视觉组根据第十六届全国大学生智能车竞赛竞速组-室内视觉组补充说明中... 查看详情

正文

听声辨物，这是ai视觉该干的？？？｜eccv2022

衡宇 发自 凹非寺量子位 | 公众号 QbitAI

精准锁定发声物

△ AVS 任务与 SSL 任务的比较

AVSBench 数据集

△AVSBench单源子集的数据分布

△对单声源子集和多声源子集进行不同人工标注

一个简单的baseline方法

△视听分割框架图

部分实验结果

△和来自相关任务方法进行视听分割的对比结果

△引入音频的TPAVI模块，可以更好地处理物体的形状细节（左图），并且有助于分割出正确的发声物（右图）

△视听匹配损失函数的有效性

One More Thing

cvpr，iccv和eccv，计算机视觉三大顶级盛会

acmmm&eccv2022|美团视觉8篇论文揭秘内容领域的智能科技

eccv2022｜计算机视觉中的长尾分布问题还值得做吗(代码片段)

eccv2022｜计算机视觉中的长尾分布问题还值得做吗(代码片段)

李彦宏一声「萝卜快跑」，中国首个无人车出行app就位！网友：这才是科技公司该干的事儿...

eccv2020优秀论文汇总|涉及点云处理3d检测识别三维重建立体视觉姿态估计深度估计sfm等方向

你没见过的《老友记》镜头，ai给补出来了｜eccv2022

2022全球ai模型周报

eccv2022｜计算机视觉中的长尾分布问题还值得做吗(代码片段)

五篇值得阅读的eccv2020图像识别相关论文

ai美颜相关资源收集

ai美颜相关资源收集

一个nerf搞定全尺度：港中大团队bungeenerf从单建筑到地球都能渲染｜eccv2022

eccv2020五项大奖出炉！普林斯顿邓嘉获最佳论文奖

eccv2020五项大奖出炉！普林斯顿邓嘉获最佳论文奖

2022年端边云协同的ai视觉产业研究报告

eccv2018|旷视科技提出gridface：通过学习局部单应变换实现人脸校正

线上比赛中关于视觉ai组与信标组补充说明(代码片段)

衡宇发自凹非寺
量子位 | 公众号 QbitAI