Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

📄 arXiv: 2512.17532v1 📥 PDF

作者: Jiaqi Tang, Jianmin Chen, Wei Wei, Xiaogang Xu, Runtao Liu, Xiangyu Wu, Qipeng Xie, Jiafei Wu, Lei Zhang, Qifeng Chen

分类: cs.CV, cs.AI

发布日期: 2025-12-19

备注: Accepted by AAAI2026 Oral


💡 一句话要点

提出Robust-R1框架,通过显式建模视觉退化实现鲁棒视觉理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉退化 鲁棒性 推理链 显式建模

📋 核心要点

  1. 现有MLLM在真实视觉退化下性能下降,主要依赖隐式训练,缺乏可解释性和优化隔离。
  2. Robust-R1通过结构化推理链显式建模视觉退化,实现退化感知推理和动态推理深度调整。
  3. 在R-Bench等基准测试中,Robust-R1优于现有方法,并在对抗性退化下表现出更强的鲁棒性。

📝 摘要(中文)

多模态大型语言模型在极端真实世界的视觉退化下难以保持可靠的性能,这阻碍了它们的实际鲁棒性。现有的鲁棒MLLM主要依赖于隐式训练/适应,仅关注视觉编码器的泛化能力,存在可解释性有限和孤立优化的问题。为了克服这些限制,我们提出了Robust-R1,一种通过结构化推理链显式建模视觉退化的新框架。我们的方法集成了:(i)用于退化感知推理基础的监督微调,(ii)用于准确感知退化参数的奖励驱动对齐,以及(iii)适应于退化强度的动态推理深度缩放。为了促进这种方法,我们引入了一个专门的11K数据集,该数据集具有在四个关键的真实世界视觉处理阶段合成的逼真退化,每个阶段都用连接退化参数、感知影响、原始语义推理链和结论的结构化链进行注释。全面的评估表明了最先进的鲁棒性:Robust-R1在真实世界退化基准R-Bench上优于所有通用和鲁棒基线,同时在MMMB、MMStar和RealWorldQA上保持了多强度对抗退化下的卓越抗退化性能。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)在面对真实世界中常见的视觉退化(例如模糊、噪声、低光照等)时,性能会显著下降。这些模型通常依赖于隐式的训练或适应策略,专注于提升视觉编码器的泛化能力,但缺乏对退化过程的显式建模和推理,导致可解释性差,优化效果有限。因此,如何提升MLLM在各种视觉退化条件下的鲁棒性是一个重要的挑战。

核心思路:Robust-R1的核心思路是通过显式地建模视觉退化过程,构建结构化的推理链,从而使模型能够理解退化参数、感知退化对视觉信息的影响,并进行相应的推理调整。这种显式建模的方式可以提高模型的可解释性,并允许针对不同的退化情况进行优化。通过奖励驱动的对齐,模型可以更准确地感知退化参数,并根据退化强度动态调整推理深度。

技术框架:Robust-R1框架主要包含三个关键模块:1) 退化感知推理基础:通过监督微调,使模型具备理解和推理视觉退化的能力。2) 奖励驱动对齐:利用奖励机制,引导模型准确感知退化参数。3) 动态推理深度缩放:根据退化强度,动态调整推理的深度,以平衡性能和计算成本。为了支持该框架,作者构建了一个包含11K图像的数据集,该数据集模拟了真实世界中常见的视觉退化,并对每个图像标注了结构化的推理链,包括退化参数、感知影响、原始语义推理链和结论。

关键创新:Robust-R1的关键创新在于其显式建模视觉退化过程的方式。与以往依赖隐式训练的方法不同,Robust-R1通过结构化的推理链,将退化参数、感知影响和推理过程联系起来,从而使模型能够更好地理解和应对视觉退化。此外,动态推理深度缩放机制可以根据退化强度自适应地调整推理深度,从而在保证性能的同时降低计算成本。

关键设计:在退化感知推理基础模块中,使用了监督微调的方法,利用标注的结构化推理链来训练模型。在奖励驱动对齐模块中,设计了一个奖励函数,用于评估模型感知退化参数的准确性。在动态推理深度缩放模块中,根据退化强度自适应地调整推理深度,例如,对于轻微的退化,可以使用较浅的推理深度,而对于严重的退化,则需要使用更深的推理深度。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Robust-R1在R-Bench基准测试中取得了state-of-the-art的性能,显著优于现有的通用和鲁棒基线模型。此外,在MMMB、MMStar和RealWorldQA等数据集上,Robust-R1在多强度对抗退化下也表现出卓越的抗退化性能,验证了其在真实世界场景中的鲁棒性。

🎯 应用场景

Robust-R1框架可应用于自动驾驶、机器人导航、医学图像分析等领域,提升视觉系统在恶劣环境下的可靠性。该研究有助于推动多模态大模型在真实世界场景中的应用,并为未来的鲁棒视觉理解研究提供借鉴。

📄 摘要(原文)

Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.