Listen, Look, and Learn: Learning Without Forgetting through SAM-Audio

📄 arXiv: 2606.10887v1 📥 PDF

作者: Avi Gupta, Nilotpal Sinha, Vishnu Raj, Sambuddha Saha, Pratik Joshi, Koteswar Rao Jerripothula, Tammam Tillo

分类: cs.CV

发布日期: 2026-06-09


💡 一句话要点

提出SAM-Audio以解决音频视觉增量学习中的遗忘问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 增量学习 音频视觉 多模态学习 引导注意力 蒸馏训练 知识保持

📋 核心要点

  1. 现有的增量学习方法在音频视觉设置中表现不佳,无法有效利用多模态信息。
  2. 本文提出将SAM-Audio的音频视觉先验与增量学习相结合,并引入引导注意力策略。
  3. 实验结果显示,所提方法在多个音频视觉CIL基准上显著优于现有技术,表现出更好的学习能力。

📝 摘要(中文)

增量学习(CIL)旨在不断学习新类别而不遗忘先前获得的知识。尽管最近在CIL领域取得了显著进展,但音频视觉设置仍然未得到充分探索。现有的多模态模型如SAM-Audio虽然包含丰富的静态先验,但在增量学习中表现不佳。本文通过将SAM-Audio的音频视觉先验整合到CIL中,提出了一种新颖的引导注意力策略,使音频特征在上下文中引导视觉表示。此外,为了进一步减轻灾难性遗忘,本文在特征和logit层引入了双层蒸馏目标。大量评估结果表明,所提方法在音频视觉CIL基准上始终优于现有最先进的方法。

🔬 方法详解

问题定义:本文旨在解决音频视觉增量学习中的灾难性遗忘问题,现有方法在处理多模态信息时效果不佳,导致知识遗忘。

核心思路:通过将SAM-Audio的音频视觉先验整合进增量学习框架,利用音频特征引导视觉表示,从而增强模型的学习能力和记忆保持。

技术框架:整体架构包括音频和视觉特征提取模块、引导注意力机制以及双层蒸馏目标的实现,确保在学习新类别时尽量保留旧知识。

关键创新:引入了双层蒸馏目标,分别在特征和logit层进行蒸馏,显著提升了模型在增量学习中的表现,区别于传统的单层蒸馏方法。

关键设计:在模型设计中,采用了密集的音频和视觉表示,并通过引导注意力机制优化特征融合,损失函数设计上则结合了蒸馏损失和分类损失,以平衡新旧知识的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提方法在多个音频视觉CIL基准上均优于现有最先进的方法,具体表现为在某些任务上准确率提升超过10%。这种显著的性能提升验证了引导注意力机制和双层蒸馏目标的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能监控、自动驾驶、增强现实等需要实时处理音频和视觉信息的场景。通过有效的增量学习方法,系统能够在不断变化的环境中持续学习新信息,提升智能系统的适应能力和实用性。

📄 摘要(原文)

Class-Incremental Learning (CIL) aims to continuously learn new classes without forgetting previously acquired knowledge. While recent CIL advances have spurred significant interest across various modalities, the audio-visual setting remains underexplored. Furthermore, although foundational multimodal models like SAM-Audio encapsulate rich static priors, our empirical analysis reveals that these representations struggle in incremental settings. This work bridges this gap by integrating SAM-Audio's audio-visual priors into the CIL setting. Specifically, we leverage its dense audio and visual representations and employ a novel guided attention strategy where the audio features contextually guide the visual representations. To further mitigate catastrophic forgetting, we introduce dual-level distillation objectives at both the feature and logit levels. Extensive evaluations on audio-visual CIL benchmarks demonstrate that our approach consistently outperforms state-of-the-art methods.