Majorization-Guided Test-Time Adaptation for Vision-Language Models under Modality-Specific Shift
作者: Lixian Chen, Mingxuan Huang, Yanhui Chen, Junyi Lin, Yang Shi
分类: cs.CV
发布日期: 2026-04-27
💡 一句话要点
提出MG-MTTA,解决视觉-语言模型在模态特定偏移下的测试时自适应问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 测试时自适应 模态偏移 Majorization 门控机制 多模态融合 领域自适应
📋 核心要点
- 现有基于熵最小化的测试时自适应方法在模态特定偏移下失效,因为不可靠模态可能主导融合。
- 提出MG-MTTA,通过Majorization视角将自适应视为约束解混问题,并引入可靠性感知的门控先验。
- 实验表明,MG-MTTA在文本偏移和联合视觉-文本偏移下显著提升了top-1准确率,验证了模态可靠性的重要性。
📝 摘要(中文)
视觉-语言模型在零样本设置下表现良好,但在部署时,视觉和文本分支经常出现不对称的偏移。在这种情况下,基于熵的测试时自适应可能会锐化融合后的后验概率,但同时也会增加误差,因为不可靠的模态仍然可能主导融合。本文通过多模态后验概率的 Majorization 视角研究了这种失效模式,并将自适应视为融合预测上的约束解混问题。基于此,本文提出了MG-MTTA,它冻结骨干网络,仅更新轻量级的门控或适配器。该目标结合了融合后验熵最小化与基于锚点的模态一致性和跨模态冲突构建的可靠性感知门控先验。分析给出了熵减少保持正确排序的条件以及表征模态主导失效的阈值。在基于ImageNet的基准测试中,MG-MTTA在语义保持的文本偏移下将top-1准确率从57.97%提高到66.51%,在联合视觉-文本偏移下从21.68%提高到26.27%,同时在仅视觉基准测试中保持竞争力。这些结果表明,多模态测试时自适应应控制模态可靠性,而不仅仅是预测熵。
🔬 方法详解
问题定义:论文旨在解决视觉-语言模型在测试时,由于视觉和文本模态出现不对称偏移,导致模型性能显著下降的问题。现有基于熵最小化的测试时自适应方法,在模态出现偏移时,容易被不可靠的模态所主导,从而导致性能下降。痛点在于缺乏对模态可靠性的有效控制。
核心思路:论文的核心思路是将测试时自适应问题视为一个约束解混问题,即在融合的预测结果中,如何区分和利用不同模态的信息。通过引入一个可靠性感知的门控机制,对不同模态的贡献进行加权,从而降低不可靠模态的影响,提高整体的预测准确率。这样设计的目的是为了在模态偏移的情况下,仍然能够利用可靠的模态信息,避免被噪声模态所干扰。
技术框架:MG-MTTA的技术框架主要包含以下几个部分:1) 冻结的视觉-语言模型骨干网络,用于提取视觉和文本特征;2) 轻量级的门控或适配器,用于对不同模态的特征进行加权融合;3) 融合后验熵最小化目标,用于提高预测的置信度;4) 基于锚点的模态一致性和跨模态冲突构建的可靠性感知门控先验,用于约束门控的权重,使其更加关注可靠的模态。整体流程是:输入测试样本,通过骨干网络提取特征,通过门控或适配器进行融合,计算损失函数并更新门控或适配器的参数。
关键创新:论文最重要的技术创新点在于提出了可靠性感知的门控先验。该先验基于锚点的模态一致性和跨模态冲突来估计每个模态的可靠性,并将其作为门控权重的约束条件。与现有方法相比,该方法能够更加有效地控制模态的贡献,避免被不可靠的模态所主导。此外,将测试时自适应问题视为约束解混问题,也为解决模态偏移问题提供了一个新的视角。
关键设计:关键设计包括:1) 锚点的选择:选择具有代表性的样本作为锚点,用于估计模态一致性和跨模态冲突;2) 门控或适配器的结构:采用轻量级的网络结构,以减少计算开销;3) 损失函数的设计:结合了融合后验熵最小化和门控先验,以平衡预测置信度和模态可靠性;4) 阈值的设定:通过理论分析,给出了熵减少保持正确排序的条件以及表征模态主导失效的阈值。
🖼️ 关键图片
📊 实验亮点
MG-MTTA在ImageNet基准测试中取得了显著的性能提升。在语义保持的文本偏移下,top-1准确率从57.97%提高到66.51%,提升了8.54个百分点。在联合视觉-文本偏移下,top-1准确率从21.68%提高到26.27%,提升了4.59个百分点。同时,在仅视觉基准测试中,MG-MTTA保持了竞争力,表明该方法具有良好的通用性。
🎯 应用场景
该研究成果可应用于各种需要视觉-语言模型进行推理的场景,例如图像分类、图像检索、视觉问答等。尤其是在数据分布发生偏移的情况下,例如在不同的光照条件、拍摄角度或文本表达方式下,该方法可以显著提高模型的鲁棒性和泛化能力。未来,该方法可以进一步扩展到其他多模态任务和模型中,具有广阔的应用前景。
📄 摘要(原文)
Vision-language models transfer well in zero-shot settings, but at deployment the visual and textual branches often shift asymmetrically. Under this condition, entropy-based test-time adaptation can sharpen the fused posterior while increasing error, because an unreliable modality may still dominate fusion. We study this failure mode through a majorization view of multimodal posteriors and cast adaptation as a constrained de-mixing problem on the fused prediction. Based on this view, we propose MG-MTTA, which keeps the backbone frozen and updates only a lightweight gate or adapter. The objective combines fused-posterior entropy minimization with a reliability-aware gate prior built from anchor-based modality consistency and cross-modal conflict. Our analysis gives conditions under which entropy reduction preserves the correct ranking and a threshold that characterizes modality-dominance failure. On the ImageNet-based benchmark, MG-MTTA improves top-1 accuracy from 57.97 to 66.51 under semantics-preserving textual shift and from 21.68 to 26.27 under joint visual-textual shift, while remaining competitive in the visual-only benchmark. These results show that multimodal test-time adaptation should control modality reliability, not just prediction entropy.