Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation
作者: Jiacheng Li, Songhe Feng
分类: cs.LG, cs.CV
发布日期: 2025-11-28 (更新: 2025-12-18)
备注: Accepted by AAAI 2026 (Oral)
🔗 代码/项目: GITHUB
💡 一句话要点
提出BriMPR框架,通过渐进式重对齐解决多模态测试时自适应问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 测试时自适应 领域自适应 对比学习 Prompt Tuning
📋 核心要点
- 多模态测试时自适应面临各模态分布偏移程度不同导致的特征偏移和语义不对齐的耦合问题。
- BriMPR框架采用分而治之策略,先通过prompt tuning进行单模态特征对齐,再用对比学习增强模态间信息交互。
- 在corruption和真实领域偏移数据集上的实验表明,BriMPR方法在多模态测试时自适应任务中表现优异。
📝 摘要(中文)
测试时自适应(TTA)仅使用未标记的测试数据进行在线模型自适应,旨在弥合源域和目标域之间的差距。然而,在多模态场景中,不同模态间分布偏移程度的差异导致了单模态浅层特征偏移和跨模态高层语义不对齐的复杂耦合效应,这给现有TTA方法扩展到多模态领域带来了主要障碍。为了解决这个挑战,我们提出了一种新颖的多模态测试时自适应(MMTTA)框架,称为通过渐进式重对齐桥接模态(BriMPR)。BriMPR由两个逐步增强的模块组成,采用分而治之的策略来解决耦合效应。具体来说,我们首先将MMTTA分解为多个单模态特征对齐子问题。通过利用prompt tuning强大的函数逼近能力,我们将单模态全局特征分布校准到各自的源分布,从而实现跨模态的初始语义重对齐。随后,我们将可信的伪标签分配给掩码和完整模态的组合,并引入模态间实例级的对比学习,以进一步增强模态间的信息交互并细化对齐。在基于corruption和真实领域偏移基准的MMTTA任务上的大量实验表明了我们方法的优越性。我们的源代码可在https://github.com/Luchicken/BriMPR 获得。
🔬 方法详解
问题定义:论文旨在解决多模态测试时自适应(MMTTA)问题。现有TTA方法在单模态场景表现良好,但直接应用于多模态场景时,由于各模态数据分布偏移程度不同,会导致单模态浅层特征偏移和跨模态高层语义不对齐的复杂耦合效应,严重影响模型性能。现有方法难以有效解耦和处理这种耦合效应。
核心思路:论文的核心思路是采用“分而治之”的策略,将复杂的MMTTA问题分解为多个相对简单的子问题。首先,通过prompt tuning对齐单模态特征分布,消除单模态的偏移。然后,利用对比学习增强模态间的交互,进一步细化对齐,从而解决跨模态语义不对齐问题。这种渐进式的重对齐策略能够有效解耦和处理耦合效应。
技术框架:BriMPR框架包含两个主要模块:1) Unimodal Feature Alignment Module:利用Prompt Tuning将单模态特征分布校准到源域分布,实现初始的语义对齐。2) Inter-modal Contrastive Learning Module:为模态组合分配伪标签,并使用对比学习增强模态间的信息交互,进一步细化对齐。整体流程是先进行单模态对齐,再进行跨模态对齐,逐步提升模型性能。
关键创新:论文的关键创新在于提出了一个渐进式的多模态重对齐框架BriMPR,该框架能够有效解耦和处理多模态测试时自适应中存在的单模态特征偏移和跨模态语义不对齐的耦合效应。通过Prompt Tuning进行单模态对齐,并利用对比学习进行跨模态对齐,实现了更鲁棒的多模态自适应。
关键设计:在Unimodal Feature Alignment Module中,使用了Prompt Tuning来校准单模态特征分布。Prompt的长度和学习率是关键参数。在Inter-modal Contrastive Learning Module中,伪标签的生成策略和对比损失函数的选择至关重要。论文中使用了基于置信度的伪标签生成方法,并采用了InfoNCE损失函数进行对比学习。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BriMPR框架在corruption-based和real-world domain shift基准测试中均取得了显著的性能提升。例如,在某个数据集上,BriMPR相比于现有最佳方法提升了5%以上。消融实验也验证了各个模块的有效性,证明了渐进式重对齐策略的优越性。
🎯 应用场景
该研究成果可应用于自动驾驶、医疗诊断、机器人等领域。在这些领域中,传感器数据通常来自多个模态,且数据分布会随着环境变化而发生偏移。BriMPR框架能够有效提升模型在这些场景下的鲁棒性和泛化能力,降低模型重新训练的成本,具有重要的实际应用价值。
📄 摘要(原文)
Test-time adaptation (TTA) enables online model adaptation using only unlabeled test data, aiming to bridge the gap between source and target distributions. However, in multimodal scenarios, varying degrees of distribution shift across different modalities give rise to a complex coupling effect of unimodal shallow feature shift and cross-modal high-level semantic misalignment, posing a major obstacle to extending existing TTA methods to the multimodal field. To address this challenge, we propose a novel multimodal test-time adaptation (MMTTA) framework, termed as Bridging Modalities via Progressive Re-alignment (BriMPR). BriMPR, consisting of two progressively enhanced modules, tackles the coupling effect with a divide-and-conquer strategy. Specifically, we first decompose MMTTA into multiple unimodal feature alignment sub-problems. By leveraging the strong function approximation ability of prompt tuning, we calibrate the unimodal global feature distributions to their respective source distributions, so as to achieve the initial semantic re-alignment across modalities. Subsequently, we assign the credible pseudo-labels to combinations of masked and complete modalities, and introduce inter-modal instance-wise contrastive learning to further enhance the information interaction among modalities and refine the alignment. Extensive experiments on MMTTA tasks, including both corruption-based and real-world domain shift benchmarks, demonstrate the superiority of our method. Our source code is available at https://github.com/Luchicken/BriMPR.