PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition
作者: Yuchen He, Jing Zhang
分类: cs.CV
发布日期: 2026-05-08
备注: 11 pages, 8 figures
💡 一句话要点
提出PRIMED框架,通过偏向竞争机制实现指称视听分割中的自适应模态抑制
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指称视听分割 多模态融合 偏向竞争理论 自适应模态抑制 对比学习 计算机视觉
📋 核心要点
- 现有方法将多模态线索视为同质输入,缺乏对不同场景下模态相关性的动态评估,导致模型易受无关或误导性模态干扰。
- 受认知神经科学偏向竞争理论启发,PRIMED通过模态先验解码器和自适应抑制机制,显式建模语言驱动的感知调制。
- 在Ref-AVS基准测试中,PRIMED通过引入空间感知语义对齐损失,显著提升了前景分割精度,实现了当前最优的性能表现。
📝 摘要(中文)
指称视听分割(Ref-AVS)旨在根据视觉、听觉和文本指称线索,在视频帧中定位并分割目标对象。该任务的挑战在于,不同指称表达和场景下模态的相关性差异巨大,而现有方法通常将多模态线索视为同质输入进行融合、提示或推理,导致模型易受无关或误导性模态的干扰。为此,本文提出了PRIMED框架,其灵感源自认知神经科学中的“偏向竞争理论”。该方法显式建模视觉感知与语言驱动的先验调制,通过自适应模态抑制实现更精准的分割。具体而言,模态先验解码器首先估计指称表达对音频、视觉或二者交互的依赖程度,生成模态先验以引导高层注意力;Token蒸馏器提取紧凑的全局视觉Token并跨模块共享,提供分层全局上下文;此外,引入空间感知语义对齐损失,通过对比学习增强前景与背景的区分度。实验表明,PRIMED在Ref-AVS基准测试中达到了SOTA性能。
🔬 方法详解
问题定义:Ref-AVS任务的核心难点在于多模态信息(视觉、音频、文本)在不同指称语境下的重要性是不对称的。现有方法往往采用简单的特征拼接或交叉注意力,无法有效过滤掉无关模态带来的噪声,导致分割边界模糊或定位错误。
核心思路:借鉴认知科学中的“偏向竞争”理论,即大脑通过抑制无关刺激来增强目标感知。PRIMED通过显式建模模态先验,动态调整不同模态在推理过程中的权重,从而实现对干扰信息的自适应抑制。
技术框架:系统包含三个核心模块:模态先验解码器(Modality Prior Decoder)用于评估模态依赖性;Token蒸馏器(Token Distiller)用于提取并共享全局上下文;以及竞争感知交叉模态融合模块(Competition-aware Cross-modal Fusion),负责在先验引导下进行特征交互。
关键创新:引入了模态先验机制,将“模态选择”从隐式的特征融合提升为显式的先验引导,使模型能够根据文本指令主动抑制非必要模态,这是与传统多模态融合方法最本质的区别。
关键设计:引入了空间感知语义对齐损失(Spatial-Aware Semantic Alignment loss),通过对比学习机制强化模型对目标区域的语义辨识能力,有效提升了复杂背景下的前景分割质量。
🖼️ 关键图片
📊 实验亮点
PRIMED在Ref-AVS基准数据集上表现优异,在多项核心指标上超越了现有的主流方法。实验结果显示,通过引入模态先验调制与空间感知对比损失,模型在处理具有强干扰背景的视频片段时,分割精度(mIoU)有显著提升,证明了该框架在处理多模态冲突场景下的卓越鲁棒性。
🎯 应用场景
该技术在智能视频监控、人机交互系统及自动驾驶领域具有重要价值。通过精准识别并分割视听同步的目标,PRIMED可应用于复杂环境下的目标追踪、多模态内容检索及智能视频剪辑,显著提升系统在多源信息干扰下的鲁棒性与感知精度。
📄 摘要(原文)
Referring Audio-Visual Segmentation (Ref-AVS) seeks to localize and segment target objects in video frames based on visual, auditory, and textual referring cues. The task is challenging because the relevance of different modalities varies across referring expressions and scenes, while existing methods typically treat multimodal cues as homogeneous inputs for fusion, prompting, or reasoning, making them vulnerable to irrelevant or misleading modalities. To address this problem, we propose PRIMED, inspired by the biased competition theory in cognitive neuroscience, which explicitly models both visual perception and language-driven prior modulation, and enables more accurate Ref-AVS by adaptive modality suppression. Specifically, a Modality Prior Decoder first estimates whether the referring expression relies primarily on audio, vision, or their joint interaction, generating a modality prior to adaptively guide high-level attention. A Token Distiller further extracts compact global visual tokens from high-level features and shares them across Competition-aware Cross-modal Fusion modules to provide hierarchical global context. Additionally, we introduce a Spatial-Aware Semantic Alignment loss to further enhance foreground-background discrimination through contrastive learning. Extensive experiments on the Ref-AVS benchmark demonstrate that PRIMED achieves state-of-the-art overall performance.