Exploring Audio Cues for Enhanced Test-Time Video Model Adaptation

📄 arXiv: 2506.12481v1 📥 PDF

作者: Runhao Zeng, Qi Deng, Ronghao Zhang, Shuaicheng Niu, Jian Chen, Xiping Hu, Victor C. M. Leung

分类: cs.CV, cs.LG, cs.SD, eess.AS

发布日期: 2025-06-14

备注: 14 pages, 7 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出音频辅助的测试时视频模型自适应方法,提升模型在噪声环境下的泛化能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 测试时自适应 视频理解 音频辅助 伪标签 多模态融合

📋 核心要点

  1. 现有视频测试时自适应方法主要依赖视觉信息,忽略了视频中音频数据所蕴含的丰富语义信息。
  2. 利用预训练音频模型和大型语言模型,将音频信息转化为视频伪标签,辅助视频模型的测试时自适应。
  3. 设计自适应循环,根据损失变化和视角一致性,为每个样本定制最佳自适应迭代次数,提升性能。

📝 摘要(中文)

本文提出了一种新颖的音频辅助测试时自适应(TTA)方法,旨在提升已训练视频模型在测试阶段的泛化能力。现有视频TTA方法主要依赖视觉监督信号,忽略了音频数据的潜在贡献。该方法利用音频的丰富语义内容生成音频辅助伪标签,这是视频TTA领域的一个新概念。具体而言,通过预训练的音频模型对视频中的音频信号进行分类,然后利用大型语言模型将音频预测映射到视频标签空间,从而建立音频类别和视频标签之间的联系。为了有效利用生成的伪标签,提出了一个灵活的自适应循环,该循环基于损失变化和不同视角之间的一致性来确定每个样本的最佳自适应迭代次数,从而为每个样本定制自适应过程。在UCF101-C、Kinetics-Sounds-C以及新构建的AVE-C和AVMIT-C数据集上的实验结果表明,该方法具有优越性,能够持续提高不同视频分类模型的自适应性能,代表了将音频信息集成到视频TTA中的重要一步。

🔬 方法详解

问题定义:现有的测试时自适应(TTA)方法在视频领域主要依赖视觉信息,忽略了视频中音频信息所蕴含的丰富语义。在真实场景中,视频数据常常伴随噪声,仅依赖视觉信息可能导致模型性能下降。因此,如何有效利用音频信息来提升视频TTA的性能是一个关键问题。

核心思路:本文的核心思路是利用音频信息生成伪标签,辅助视频模型的测试时自适应。具体来说,首先利用预训练的音频模型提取音频特征并进行分类,然后利用大型语言模型将音频分类结果映射到视频标签空间,从而建立音频和视频之间的联系。通过这种方式,即使视觉信息受到干扰,模型仍然可以利用音频信息进行自适应。

技术框架:该方法主要包含以下几个模块:1) 音频特征提取:使用预训练的音频模型(如PANNs)提取视频中音频片段的特征。2) 音频分类:利用音频模型对音频特征进行分类,得到音频的类别预测。3) 音频-视频标签映射:使用大型语言模型(如GPT-3)将音频类别映射到视频标签空间,生成音频辅助的伪标签。4) 自适应循环:根据损失变化和不同视角之间的一致性,动态调整每个样本的自适应迭代次数。5) 模型更新:使用生成的伪标签作为监督信号,更新视频模型。

关键创新:该方法最重要的创新点在于将音频信息引入到视频TTA中,并提出了音频辅助伪标签的概念。与传统的仅依赖视觉信息的TTA方法相比,该方法能够利用音频信息来提高模型的鲁棒性和泛化能力。此外,自适应循环的设计也使得模型能够根据每个样本的特点进行定制化的自适应。

关键设计:在音频-视频标签映射中,使用了Prompt Engineering来指导大型语言模型进行映射,例如使用“The audio is about [audio_class], so the video is about [video_label]”这样的prompt。自适应循环中,使用了损失变化率和不同视角下预测结果的一致性作为停止迭代的指标。损失函数使用了交叉熵损失,优化器使用了Adam。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在UCF101-C和Kinetics-Sounds-C数据集上,该方法显著优于现有的TTA方法。例如,在UCF101-C数据集上,该方法相比于基线方法TENT,取得了平均5%以上的性能提升。此外,在作者新构建的AVE-C和AVMIT-C数据集上,该方法也表现出优越的性能,证明了其在音频-视频TTA任务中的有效性。

🎯 应用场景

该研究成果可应用于各种需要视频理解的实际场景,例如智能监控、自动驾驶、视频会议、在线教育等。特别是在噪声环境下,该方法能够有效提升视频模型的性能和鲁棒性。未来,可以将该方法扩展到其他多模态视频理解任务中,例如视频描述生成、视频问答等。

📄 摘要(原文)

Test-time adaptation (TTA) aims to boost the generalization capability of a trained model by conducting self-/unsupervised learning during the testing phase. While most existing TTA methods for video primarily utilize visual supervisory signals, they often overlook the potential contribution of inherent audio data. To address this gap, we propose a novel approach that incorporates audio information into video TTA. Our method capitalizes on the rich semantic content of audio to generate audio-assisted pseudo-labels, a new concept in the context of video TTA. Specifically, we propose an audio-to-video label mapping method by first employing pre-trained audio models to classify audio signals extracted from videos and then mapping the audio-based predictions to video label spaces through large language models, thereby establishing a connection between the audio categories and video labels. To effectively leverage the generated pseudo-labels, we present a flexible adaptation cycle that determines the optimal number of adaptation iterations for each sample, based on changes in loss and consistency across different views. This enables a customized adaptation process for each sample. Experimental results on two widely used datasets (UCF101-C and Kinetics-Sounds-C), as well as on two newly constructed audio-video TTA datasets (AVE-C and AVMIT-C) with various corruption types, demonstrate the superiority of our approach. Our method consistently improves adaptation performance across different video classification models and represents a significant step forward in integrating audio information into video TTA. Code: https://github.com/keikeiqi/Audio-Assisted-TTA.