On Asymmetric Optimization of Reasoning and Perception in Vision-Language Model Post-Training

📄 arXiv: 2605.29496v1 📥 PDF

作者: Xueqing Wu, Yu-Chi Lin, Kai-Wei Chang, Nanyun Peng

分类: cs.CL, cs.CV

发布日期: 2026-05-28

备注: Project: https://asymmetric-vlm-post-training.github.io/


💡 一句话要点

针对视觉-语言模型后训练中推理与感知优化不对称问题,提出动态重加权损失和感知奖励机制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 后训练 感知推理不对称 动态损失重加权 感知奖励 监督微调 强化学习 视觉推理

📋 核心要点

  1. 现有视觉-语言模型后训练在推理能力提升显著,但感知能力提升有限,制约了端到端视觉推理性能。
  2. 论文提出通过动态重加权损失(SFT)和感知奖励(RL)来平衡感知和推理的训练信号,解决优化不对称问题。
  3. 实验表明,所提方法在监督微调和强化学习中均能有效提升端到端性能,最高分别提升18.2%和6.0%。

📝 摘要(中文)

后训练显著提升了前沿视觉-语言模型中的推理能力,但其对感知能力的提升相对有限,这成为了端到端视觉推理的瓶颈。为了研究这种差距,我们引入了一个可控的诊断框架,其中包含两个将感知与推理分离的合成任务。我们的分析揭示了一种一致的感知-推理不对称性:后训练对推理的提升远大于对感知的提升,尽管其潜在机制因训练范式而异。对于监督微调(SFT),这种不对称性源于思维链监督中的token不平衡,其中感知占据的token较少,因此接收到的训练信号较弱。动态地重新加权损失可以减轻这种不平衡,并将端到端性能提高高达18.2%。对于强化学习(RL),不对称性则源于奖励耦合:结果奖励与推理的相关性强于与感知的相关性,从而削弱了感知学习的信号。添加感知感知的奖励可以缓解这种不平衡,并将端到端准确率提高高达6.0%;即使没有groundtruth感知奖励,可靠的替代奖励也能提供有用的信号,从而产生3.2个点的增益。总之,我们的结果全面诊断了不对称优化,并提出了具体的干预措施来平衡感知和推理。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型后训练过程中,感知能力提升滞后于推理能力提升的问题。现有方法在后训练中,对感知和推理的优化存在不对称性,导致端到端视觉推理性能受限。这种不对称性体现在,模型更倾向于学习推理相关的知识,而忽略了对视觉信息的准确理解。

核心思路:论文的核心思路是针对不同的训练范式(监督微调SFT和强化学习RL),分别采用不同的策略来平衡感知和推理的训练信号。对于SFT,通过动态调整损失权重,增加感知相关token的训练权重;对于RL,通过引入感知相关的奖励信号,引导模型关注感知能力的提升。

技术框架:论文构建了一个包含两个合成任务的诊断框架,用于评估感知和推理能力。该框架将感知和推理过程解耦,从而可以独立地分析模型在感知和推理方面的表现。对于SFT,采用动态损失重加权策略;对于RL,则引入感知奖励机制。

关键创新:论文的关键创新在于发现了视觉-语言模型后训练中感知和推理优化不对称的现象,并针对不同的训练范式提出了相应的解决方案。具体来说,针对SFT的动态损失重加权策略和针对RL的感知奖励机制,都是具有创新性的方法,能够有效平衡感知和推理的训练信号。

关键设计:对于SFT,动态损失重加权策略的关键在于确定感知相关token的权重。论文采用启发式方法,根据token在输入序列中的位置和类型来确定权重。对于RL,感知奖励的设计需要考虑如何准确地评估模型的感知能力。论文设计了基于groundtruth感知结果的奖励,以及基于替代指标的奖励。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在监督微调(SFT)中,动态重加权损失可以将端到端性能提高高达18.2%。在强化学习(RL)中,添加感知感知的奖励可以将端到端准确率提高高达6.0%;即使没有groundtruth感知奖励,可靠的替代奖励也能产生3.2个点的增益。这些结果验证了所提方法的有效性,并表明平衡感知和推理对于提升视觉-语言模型性能至关重要。

🎯 应用场景

该研究成果可应用于各种需要视觉推理的场景,例如视觉问答、图像描述、机器人导航等。通过平衡感知和推理能力,可以提升视觉-语言模型在这些任务中的性能和鲁棒性,使其能够更好地理解和处理复杂的视觉信息,从而实现更智能的人机交互。

📄 摘要(原文)

Post-training has greatly improved reasoning in frontier vision-language models, yet its gains for perception remain comparatively limited, creating a bottleneck for end-to-end visual reasoning. To investigate this gap, we introduce a controlled diagnostic framework with two synthetic tasks that disentangle perception from reasoning. Our analysis reveals a consistent perception-reasoning asymmetry: posttraining improves reasoning more substantially than perception, though the underlying mechanism differs by training paradigm. For supervised fine-tuning (SFT), this asymmetry stems from token imbalance in chain-of-thought supervision, where perception occupies fewer tokens and thus receives a weaker training signal. Dynamically reweighting the loss mitigates this imbalance and boosts end-to-end performance by up to 18.2. For reinforcement learning (RL), the asymmetry instead arises from reward coupling: outcome rewards correlate more strongly with reasoning than with perception, weakening the signal for perception learning. Adding a perception-aware reward alleviates the imbalance and improves end-to-end accuracy by up to 6.0; even without groundtruth perception rewards, a reliable surrogate reward provide useful signal, yielding gains of 3.2 points. Together, our results comprehensively diagnose asymmetric optimization and suggest concrete interventions to balance perception and reasoning.