Latent Denoising Improves Visual Alignment in Large Multimodal Models

📄 arXiv: 2604.21343v1 📥 PDF

作者: Dhruv Parikh, Jacob Fein-Ashley, Rajgopal Kannan, Viktor Prasanna

分类: cs.CV

发布日期: 2026-04-23

备注: Technical Report

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于隐空间去噪的视觉对齐方法,提升大型多模态模型性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉对齐 隐空间去噪 对比学习 鲁棒性 大型语言模型 视觉表征 自监督学习

📋 核心要点

  1. 现有大型多模态模型视觉token缺乏直接监督,导致视觉表征能力不足,泛化性差。
  2. 提出隐空间去噪框架,通过显著性感知的噪声破坏视觉token,并利用解码器恢复原始特征。
  3. 实验表明,该方法在多模态基准测试和组合鲁棒性测试中均有显著提升,且对图像损坏更具鲁棒性。

📝 摘要(中文)

大型多模态模型(LMMs),如LLaVA,通常采用自回归语言建模目标进行训练,这仅为视觉token提供间接监督。这导致内部视觉表示较弱,且在分布偏移下表现脆弱。受最近在学习高质量视觉tokenizer的隐空间去噪方面的进展启发,我们展示了相同的原则为改善LMM中内部视觉特征对齐和多模态理解提供了一种有效的视觉监督形式。我们提出了一个隐空间去噪框架,该框架使用显著性感知的掩码和高斯噪声混合来破坏投影的视觉token。LMM被训练通过使用解码器从选定的中间LLM层的隐藏状态恢复干净的教师patch特征来对这些被破坏的token进行去噪。为了防止表示崩溃,我们的框架还保留了教师的图像内相似性结构,并应用图像内对比patch蒸馏。在推理过程中,禁用损坏和辅助头,不会引入额外的推理时开销。在一系列广泛的标准多模态基准测试中,我们的方法始终如一地提高了视觉理解和推理能力,并且在组合鲁棒性基准测试(例如,NaturalBench)上产生了明显的收益。此外,在应用于基准图像的ImageNet-C风格的非对抗性常见损坏下,我们的方法保持了更高的准确性,并且在适度和严重损坏级别下都表现出降低的退化。

🔬 方法详解

问题定义:大型多模态模型(LMMs)在训练过程中,视觉token通常只受到来自语言模型的间接监督,这导致LMMs的视觉表征能力较弱,难以捕捉图像中的细粒度信息,并且在面对分布偏移或图像损坏时表现出脆弱性。现有方法缺乏有效的视觉监督机制,无法充分利用图像信息来提升LMMs的性能。

核心思路:论文的核心思路是通过引入隐空间去噪作为一种视觉监督形式,来增强LMMs的视觉表征能力。具体来说,通过对视觉token进行有针对性的噪声破坏,并训练LMMs恢复原始的干净特征,从而迫使LMMs学习更鲁棒和信息丰富的视觉表示。这种方法借鉴了自监督学习中的去噪思想,将其应用于多模态学习中,以提升视觉模态的性能。

技术框架:该方法的技术框架主要包括以下几个步骤:1) 视觉token嵌入:首先,使用视觉编码器(如ViT)将输入图像转换为视觉token嵌入。2) 噪声注入:然后,使用显著性感知的掩码和高斯噪声混合来破坏这些视觉token嵌入,生成带噪声的token。3) 特征恢复:接下来,将带噪声的token输入到LMM中,并利用一个解码器从LMM的中间层隐藏状态中恢复原始的干净教师patch特征。4) 对比蒸馏:为了防止表示崩溃,还引入了图像内对比patch蒸馏,以保留教师模型的图像内相似性结构。5) 训练:最后,通过最小化重构损失和对比损失来训练LMM。在推理阶段,噪声注入和解码器被移除,不引入额外的计算开销。

关键创新:该方法最重要的技术创新点在于将隐空间去噪的思想引入到大型多模态模型的训练中,并将其作为一种有效的视觉监督形式。与传统的只依赖语言模型监督的方法相比,该方法能够更直接地指导LMMs学习高质量的视觉表示,从而提升其视觉理解和推理能力。此外,显著性感知的噪声注入和对比蒸馏策略也有助于提高模型的鲁棒性和泛化能力。

关键设计:在关键设计方面,论文采用了显著性感知的噪声注入策略,即根据图像的显著性区域来调整噪声的强度,使得模型更加关注重要的视觉信息。此外,论文还使用了对比损失来保留教师模型的图像内相似性结构,防止表示崩溃。解码器的具体结构和损失函数的选择也会影响最终的性能,但论文中没有详细说明这些细节。

📊 实验亮点

实验结果表明,该方法在多个标准多模态基准测试中取得了显著的性能提升,例如在NaturalBench等组合鲁棒性测试中表现出明显的优势。此外,该方法在ImageNet-C风格的图像损坏下也表现出更强的鲁棒性,能够保持较高的准确率,并且在适度和严重损坏级别下退化程度更低。这些结果表明,该方法能够有效地提升LMMs的视觉理解和推理能力。

🎯 应用场景

该研究成果可广泛应用于各种需要多模态理解和推理的场景,例如图像描述生成、视觉问答、机器人导航、自动驾驶等。通过提升LMMs的视觉表征能力,可以提高这些应用在复杂环境下的性能和鲁棒性,使其能够更好地理解和利用视觉信息。

📄 摘要(原文)

Large Multimodal Models (LMMs) such as LLaVA are typically trained with an autoregressive language modeling objective, providing only indirect supervision to visual tokens. This often yields weak internal visual representations and brittle behavior under distribution shift. Inspired by recent progress on latent denoising for learning high-quality visual tokenizers, we show that the same principle provides an effective form of visual supervision for improving internal visual feature alignment and multimodal understanding in LMMs. We propose a latent denoising framework that corrupts projected visual tokens using a saliency-aware mixture of masking and Gaussian noising. The LMM is trained to denoise these corrupted tokens by recovering clean teacher patch features from hidden states at a selected intermediate LLM layer using a decoder. To prevent representation collapse, our framework also preserves the teacher's intra-image similarity structure and applies intra-image contrastive patch distillation. During inference, corruption and auxiliary heads are disabled, introducing no additional inference-time overhead. Across a broad suite of standard multimodal benchmarks, our method consistently improves visual understanding and reasoning over strong baselines, and yields clear gains on compositional robustness benchmarks (e.g., NaturalBench). Moreover, under ImageNet-C-style non-adversarial common corruptions applied to benchmark images, our method maintains higher accuracy and exhibits reduced degradation at both moderate and severe corruption levels. Our code is available at https://github.com/dhruvashp/latent-denoising-for-lmms.