TRACER: Persistent Regularization for Robust Multimodal Finetuning

📄 arXiv: 2605.29380v1 📥 PDF

作者: Hesam Asadollahzadeh, Feng Liu, Christopher Leckie, Sarah M. Erfani

分类: cs.LG, cs.AI, cs.CV

发布日期: 2026-05-28

备注: ICML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出TRACER,通过持续正则化提升多模态微调的鲁棒性和泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 对比学习 知识蒸馏 鲁棒性 泛化能力

📋 核心要点

  1. 多模态模型微调易发生灾难性遗忘,导致分布外泛化能力下降,现有正则化方法难以有效保留预训练知识。
  2. TRACER通过理论分析发现EMA教师模型存在崩溃问题,提出WMA教师模型以保持持续正则化力,实现无偏收敛。
  3. TRACER结合对比学习和WMA引导的多视角蒸馏,在CLIP微调实验中显著提升了OOD准确性和模型校准。

📝 摘要(中文)

主流的多模态预训练模型微调策略通常会降低模型的分布外(OOD)鲁棒性,这种现象被称为灾难性遗忘。本文为多模态对比微调构建了一个理论框架,为每种策略提供了闭式解和几何分解。该框架表明,自蒸馏比其他正则化方法更有效地保留预训练模型的知识。我们的分析揭示了一个被广泛忽视的局限性:标准指数移动平均(EMA)教师模型在鲁棒微调中存在崩溃问题。为了解决这个问题,我们证明了加权移动平均(WMA)教师模型在有限范围内保持持续的正则化力,并在任务子空间中产生无偏收敛,同时保留正交知识。这些见解促使我们提出了TRACER(用于对比编码器正则化的轨迹鲁棒锚定),它结合了对比学习和WMA引导的多视角蒸馏。在CLIP微调上的大量实验表明,TRACER在三种骨干架构上实现了持续的OOD准确性和校准增益,全面的消融实验证实了TRACER的原理性和对超参数选择的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决多模态预训练模型微调过程中出现的灾难性遗忘问题,即微调后模型在分布外数据上的鲁棒性显著下降。现有方法,如基于指数移动平均(EMA)的正则化,虽然试图保留预训练模型的知识,但存在教师模型崩溃的问题,导致正则化效果不佳。

核心思路:论文的核心思路是利用加权移动平均(WMA)构建教师模型,替代传统的EMA教师模型。WMA能够保持更长时间的正则化效果,避免教师模型崩溃,从而更有效地保留预训练模型的知识,提升微调后模型的分布外泛化能力。同时,结合对比学习和多视角蒸馏,进一步增强模型的鲁棒性。

技术框架:TRACER的技术框架主要包含以下几个模块:1) 对比学习模块,用于学习模态之间的不变性表示;2) WMA教师模型,用于提供正则化信号,引导学生模型学习;3) 多视角蒸馏模块,从多个角度对学生模型进行知识蒸馏,增强模型的泛化能力。整体流程是:首先,利用对比学习模块学习模态不变性表示;然后,利用WMA教师模型和多视角蒸馏模块对学生模型进行微调,最终得到一个鲁棒的多模态模型。

关键创新:论文最重要的技术创新点在于提出了WMA教师模型,并证明了其在有限范围内能够保持持续的正则化力,避免了EMA教师模型崩溃的问题。此外,论文还从理论上分析了多模态对比微调的几何特性,为理解和改进微调策略提供了新的视角。

关键设计:WMA教师模型的权重设计是关键。论文证明了特定的权重设置可以保证在任务子空间中的无偏收敛,同时保留正交知识。对比学习模块使用了InfoNCE损失函数,多视角蒸馏模块则从不同角度对学生模型进行知识蒸馏,例如使用不同的数据增强方法或不同的网络层。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TRACER在CLIP微调任务中,相比于基线方法,在OOD数据集上取得了显著的性能提升。例如,在某些数据集上,TRACER的准确率提升了5%以上,并且模型的校准误差也显著降低。此外,消融实验验证了WMA教师模型和多视角蒸馏模块的有效性,以及TRACER对超参数选择的鲁棒性。

🎯 应用场景

TRACER可应用于各种需要多模态信息融合的场景,例如图像描述、视频理解、语音识别等。该方法能够提升模型在真实世界复杂环境下的鲁棒性和泛化能力,具有重要的实际应用价值。例如,在自动驾驶领域,TRACER可以提高车辆对恶劣天气或光照条件下的感知能力,从而提升驾驶安全性。

📄 摘要(原文)

Mainstream strategies for finetuning pretrained multimodal models often degrade out-of-distribution (OOD) robustness, a phenomenon known as catastrophic forgetting. In this paper, we develop a theoretical framework for multimodal contrastive finetuning, yielding closed-form solutions and a geometric decomposition for each strategy. This framework shows that self-distillation is more effective than other regularization approaches to retain the knowledge of the pretrained model. Our analysis reveals a largely overlooked limitation: standard Exponential Moving Average (EMA) teachers, widely used in robust finetuning, suffer from collapse. To solve this, we prove that a Weighted Moving Average (WMA) teacher maintains a persistent regularizing force over finite horizons and yields bias-free convergence in the task subspace while preserving orthogonal knowledge. These insights motivate TRACER (Trajectory-Robust Anchoring for Contrastive Encoder Regularization), which combines contrastive learning with WMA-guided multi-perspective distillation. Extensive experiments on CLIP finetuning demonstrate consistent OOD accuracy and calibration gains across three backbone architectures, and comprehensive ablations confirm that TRACER is both principled and robust to hyperparameter choices. Code is available at https://github.com/HesamAsad/TRACER.