CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models
作者: Xiangzhao Hao, Zefeng Zhang, Zhenyu Zhang, Linhao Yu, Yao Chen, Yiqian Zhang, Haiyun Guo, Shuohuan Wang, Yu Sun
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
CLEAR框架通过生成式能力提升统一多模态模型在退化图像理解上的鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 图像退化 生成模型 强化学习 鲁棒性 视觉推理 统一模型
📋 核心要点
- 现有统一多模态模型在处理退化图像时,未能充分利用其生成能力进行有效推理。
- CLEAR框架通过监督微调、潜在表示桥和交错GRPO强化学习,连接生成和推理能力。
- 实验表明,CLEAR在退化图像上显著提升了鲁棒性,同时保持了干净图像的性能。
📝 摘要(中文)
图像退化(如模糊、噪声、压缩和光照不足)严重影响了现实场景中多模态理解。统一多模态模型在一个架构中结合了理解和生成能力,天然适合应对这一挑战,因为它们的生成路径可以建模退化破坏的细粒度视觉结构。然而,这些模型未能利用自身生成能力处理退化输入。我们发现这种脱节源于两个因素:现有训练机制从未要求模型在推理过程中调用生成能力,以及标准解码-重编码路径不支持有效的联合优化。我们提出了CLEAR框架,通过三个渐进步骤连接这两种能力:(1)在退化感知数据集上进行监督微调,以建立生成-然后-回答的推理模式;(2)一个潜在表示桥,用生成和推理之间的直接、可优化连接取代了解码-重编码的迂回;(3)交错GRPO,一种强化学习方法,在答案正确性奖励下联合优化文本推理和视觉生成。我们构建了MMD-Bench,涵盖六个标准多模态基准测试中的三个退化严重程度级别。实验表明,CLEAR显著提高了退化输入的鲁棒性,同时保持了干净图像的性能。我们的分析进一步表明,移除像素级重建监督会导致具有更高感知质量的中间视觉状态,表明任务驱动的优化和视觉质量是自然对齐的。
🔬 方法详解
问题定义:论文旨在解决统一多模态模型在处理退化图像时性能显著下降的问题。现有方法通常依赖于直接的图像编码和文本推理,忽略了模型自身生成能力在恢复图像细节和提升理解方面的潜力。标准解码-重编码路径效率低下,且缺乏有效的联合优化机制。
核心思路:论文的核心思路是通过显式地训练模型利用其生成能力来“修复”或“增强”退化图像,然后再进行推理。通过建立生成和推理之间的直接连接,并采用强化学习进行联合优化,使模型能够更好地适应退化图像,并提高多模态理解的鲁棒性。
技术框架:CLEAR框架包含三个主要步骤:1) 监督微调:在专门构建的退化感知数据集上对模型进行微调,使其学习生成-然后-回答的推理模式。2) 潜在表示桥:用一个可优化的潜在表示桥取代传统的解码-重编码路径,直接连接生成器和推理模块,避免信息损失和计算冗余。3) 交错GRPO:使用强化学习方法,交替地优化生成器和推理模块,以最大化答案的正确性奖励。
关键创新:CLEAR的关键创新在于它显式地将生成能力引入到多模态推理过程中,并设计了潜在表示桥和交错GRPO来支持生成和推理的联合优化。与现有方法相比,CLEAR不再仅仅依赖于图像编码器的特征,而是利用生成器来恢复或增强图像,从而提高对退化图像的鲁棒性。
关键设计:潜在表示桥的设计允许梯度在生成器和推理模块之间直接传播,促进了端到端的优化。交错GRPO通过交替训练生成器和推理模块,避免了联合训练的不稳定性,并提高了训练效率。MMD-Bench数据集的构建,为评估模型在不同退化程度下的性能提供了标准化的平台。损失函数包括交叉熵损失(用于监督微调)和强化学习奖励(用于交错GRPO)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CLEAR框架在MMD-Bench数据集上显著提高了多模态模型在退化图像上的鲁棒性,同时保持了在干净图像上的性能。具体而言,CLEAR在多个基准测试中取得了显著的性能提升,尤其是在高退化程度下,性能提升更为明显。此外,分析表明,移除像素级重建监督可以产生更高感知质量的中间视觉状态。
🎯 应用场景
CLEAR框架具有广泛的应用前景,例如在自动驾驶、医学影像分析、安防监控等领域,这些领域经常面临图像质量差、光照不足等问题。通过提高模型在退化图像上的理解能力,可以提升这些应用系统的可靠性和准确性,从而带来巨大的实际价值。
📄 摘要(原文)
Image degradation from blur, noise, compression, and poor illumination severely undermines multimodal understanding in real-world settings. Unified multimodal models that combine understanding and generation within a single architecture are a natural fit for this challenge, as their generative pathway can model the fine-grained visual structure that degradation destroys. Yet these models fail to leverage their own generative capacity on degraded inputs. We trace this disconnect to two compounding factors: existing training regimes never ask the model to invoke generation during reasoning, and the standard decode-reencode pathway does not support effective joint optimization. We present CLEAR, a framework that connects the two capabilities through three progressive steps: (1) supervised fine-tuning on a degradation-aware dataset to establish the generate-then-answer reasoning pattern; (2) a Latent Representation Bridge that replaces the decode-reencode detour with a direct, optimizable connection between generation and reasoning; (3) Interleaved GRPO, a reinforcement learning method that jointly optimizes text reasoning and visual generation under answer-correctness rewards. We construct MMD-Bench, covering three degradation severity levels across six standard multimodal benchmarks. Experiments show that CLEAR substantially improves robustness on degraded inputs while preserving clean-image performance. Our analysis further reveals that removing pixel-level reconstruction supervision leads to intermediate visual states with higher perceptual quality, suggesting that task-driven optimization and visual quality are naturally aligned.