Thinking Diffusion: Penalize and Guide Visual-Grounded Reasoning in Diffusion Multimodal Language Models
作者: Keuntae Kim, Mingyu Kang, Yong Suk Choi
分类: cs.AI, cs.CV
发布日期: 2026-04-07
备注: CVPR 2026 - main
💡 一句话要点
提出PSP和VRG,解决扩散多模态语言模型推理中过早生成答案和视觉依赖不足的问题
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 多模态学习 视觉推理 思维链 语言模型
📋 核心要点
- 扩散多模态语言模型(dMLLMs)在CoT推理中存在过早生成答案和视觉信息利用不足的问题,导致推理性能下降。
- 论文提出位置和步长惩罚(PSP)延迟答案生成,并引入视觉推理指导(VRG)增强模型对视觉信息的依赖。
- 实验表明,该方法在提高推理准确率的同时,显著提升了推理速度,优于增加扩散步骤的方法。
📝 摘要(中文)
扩散大型语言模型(dLLMs)正成为自回归(AR) LLMs的有希望的替代方案。最近,这种范式已扩展到多模态任务,从而推动了扩散多模态大型语言模型(dMLLMs)的发展。这些模型有望保留LLMs的推理能力,同时通过并行生成实现更快的推理。然而,当与思维链(CoT)推理结合使用时,dMLLMs表现出两个关键问题。首先,我们观察到dMLLMs通常在非常早的时间步生成最终答案token。这种趋势表明模型在充分推理之前确定了答案,从而导致推理性能下降。其次,在初始时间步中,dMLLMs对视觉提示的依赖性极小,与AR视觉语言模型相比,表现出根本不同的视觉信息利用模式。总而言之,这些发现表明dMLLMs倾向于在没有充分基于视觉输入的情况下生成过早的最终答案。为了解决这些限制,我们提出了位置和步长惩罚(PSP)和视觉推理指导(VRG)。PSP惩罚早期时间步中较晚位置的token,延迟过早的答案生成,并鼓励跨时间步的渐进推理。VRG受到无分类器指导的启发,放大了视觉基础信号,以增强模型与视觉证据的对齐。跨各种dMLLM的广泛实验表明,我们的方法实现了高达7.5%的更高准确率,同时提供了比使用四倍扩散步骤进行推理快3倍以上的速度。
🔬 方法详解
问题定义:论文旨在解决扩散多模态语言模型(dMLLMs)在进行思维链(CoT)推理时存在的两个主要问题:一是模型倾向于在推理过程的早期就生成最终答案,导致推理不充分;二是模型对视觉信息的利用不足,未能有效利用视觉输入进行推理。现有方法,如简单地增加扩散步骤,虽然可以提高性能,但会显著降低推理速度,效率不高。
核心思路:论文的核心思路是通过引入惩罚机制和指导策略,促使dMLLMs进行更充分的推理,并增强其对视觉信息的依赖。具体来说,通过位置和步长惩罚(PSP)来延迟答案的生成,鼓励模型在后续的扩散步骤中进行更深入的推理。同时,通过视觉推理指导(VRG)来放大视觉信号,引导模型更多地关注视觉输入,从而提高推理的准确性。
技术框架:整体框架包括一个预训练的扩散多模态语言模型(dMLLM),以及两个关键模块:位置和步长惩罚(PSP)和视觉推理指导(VRG)。PSP模块在扩散过程的早期阶段,对位置靠后的token进行惩罚,从而延迟答案的生成。VRG模块则通过修改扩散过程中的噪声预测,来增强视觉信号的影响。整个流程可以概括为:输入视觉提示和文本提示 -> dMLLM生成文本序列 -> PSP模块对早期token进行惩罚 -> VRG模块增强视觉信号 -> 最终生成更准确的答案。
关键创新:论文的关键创新在于提出了PSP和VRG两种策略,有效地解决了dMLLMs在推理过程中存在的两个核心问题。PSP通过惩罚机制,促使模型进行更充分的推理,避免过早生成答案。VRG则通过指导策略,增强了模型对视觉信息的依赖,使其能够更好地利用视觉输入进行推理。与现有方法相比,该方法不仅提高了推理准确率,还显著提升了推理速度。
关键设计:PSP模块的关键设计在于惩罚函数的选择和惩罚力度的控制。论文采用了一种基于位置和步长的惩罚函数,对早期时间步中位置靠后的token进行惩罚。惩罚力度通过一个可调节的参数来控制,可以根据具体的任务和模型进行调整。VRG模块的关键设计在于如何有效地放大视觉信号。论文借鉴了无分类器指导的思想,通过修改扩散过程中的噪声预测,来增强视觉信号的影响。具体来说,通过计算有条件和无条件噪声预测之间的差异,并将该差异乘以一个缩放因子,然后加回到有条件噪声预测中,从而实现视觉信号的放大。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的PSP和VRG方法在多个dMLLMs上取得了显著的性能提升。例如,在某些任务上,该方法实现了高达7.5%的准确率提升,并且推理速度比使用四倍扩散步骤的方法快3倍以上。这些结果表明,该方法能够有效地解决dMLLMs在推理过程中存在的问题,并提高其性能。
🎯 应用场景
该研究成果可应用于各种需要视觉理解和推理的多模态任务,例如视觉问答、图像描述生成、视觉对话等。通过提高dMLLMs的推理准确率和速度,可以显著提升这些应用的性能和用户体验。未来,该方法有望推动dMLLMs在机器人、自动驾驶等领域的应用。
📄 摘要(原文)
Diffusion large language models (dLLMs) are emerging as promising alternatives to autoregressive (AR) LLMs. Recently, this paradigm has been extended to multimodal tasks, leading to the development of diffusion multimodal large language models (dMLLMs). These models are expected to retain the reasoning capabilities of LLMs while enabling faster inference through parallel generation. However, when combined with Chain-of-Thought (CoT) reasoning, dMLLMs exhibit two critical issues. First, we observe that dMLLMs often generate the final answer token at a very early timestep. This trend indicates that the model determines the answer before sufficient reasoning, leading to degraded reasoning performance. Second, during the initial timesteps, dMLLMs show minimal dependency on visual prompts, exhibiting a fundamentally different pattern of visual information utilization compared to AR vision-language models. In summary, these findings indicate that dMLLMs tend to generate premature final answers without sufficiently grounding on visual inputs. To address these limitations, we propose Position and Step Penalty (PSP) and Visual Reasoning Guidance (VRG). PSP penalizes tokens in later positions during early timesteps, delaying premature answer generation and encouraging progressive reasoning across timesteps. VRG, inspired by classifier-free guidance, amplifies visual grounding signals to enhance the model's alignment with visual evidence. Extensive experiments across various dMLLMs demonstrate that our method achieves up to 7.5% higher accuracy while delivering more than 3x speedup compared to reasoning with four times more diffusion steps.