On Asymmetric Optimization of Reasoning and Perception in Vision-Language Model Post-Training

作者: Xueqing Wu, Yu-Chi Lin, Kai-Wei Chang, Nanyun Peng

分类: cs.CL, cs.CV

发布日期: 2026-05-28

备注: Project: https://asymmetric-vlm-post-training.github.io/

💡 一句话要点

针对视觉-语言模型后训练中推理与感知优化不对称问题，提出动态重加权损失和感知奖励机制。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 后训练 感知推理不对称 动态损失重加权 感知奖励 监督微调 强化学习 视觉推理

📋 核心要点

现有视觉-语言模型后训练在推理能力提升显著，但感知能力提升有限，制约了端到端视觉推理性能。
论文提出通过动态重加权损失（SFT）和感知奖励（RL）来平衡感知和推理的训练信号，解决优化不对称问题。
实验表明，所提方法在监督微调和强化学习中均能有效提升端到端性能，最高分别提升18.2%和6.0%。

📝 摘要（中文）

后训练显著提升了前沿视觉-语言模型中的推理能力，但其对感知能力的提升相对有限，这成为了端到端视觉推理的瓶颈。为了研究这种差距，我们引入了一个可控的诊断框架，其中包含两个将感知与推理分离的合成任务。我们的分析揭示了一种一致的感知-推理不对称性：后训练对推理的提升远大于对感知的提升，尽管其潜在机制因训练范式而异。对于监督微调（SFT），这种不对称性源于思维链监督中的token不平衡，其中感知占据的token较少，因此接收到的训练信号较弱。动态地重新加权损失可以减轻这种不平衡，并将端到端性能提高高达18.2%。对于强化学习（RL），不对称性则源于奖励耦合：结果奖励与推理的相关性强于与感知的相关性，从而削弱了感知学习的信号。添加感知感知的奖励可以缓解这种不平衡，并将端到端准确率提高高达6.0%；即使没有groundtruth感知奖励，可靠的替代奖励也能提供有用的信号，从而产生3.2个点的增益。总之，我们的结果全面诊断了不对称优化，并提出了具体的干预措施来平衡感知和推理。

🔬 方法详解

问题定义：论文旨在解决视觉-语言模型后训练过程中，感知能力提升滞后于推理能力提升的问题。现有方法在后训练中，对感知和推理的优化存在不对称性，导致端到端视觉推理性能受限。这种不对称性体现在，模型更倾向于学习推理相关的知识，而忽略了对视觉信息的准确理解。

核心思路：论文的核心思路是针对不同的训练范式（监督微调SFT和强化学习RL），分别采用不同的策略来平衡感知和推理的训练信号。对于SFT，通过动态调整损失权重，增加感知相关token的训练权重；对于RL，通过引入感知相关的奖励信号，引导模型关注感知能力的提升。

技术框架：论文构建了一个包含两个合成任务的诊断框架，用于评估感知和推理能力。该框架将感知和推理过程解耦，从而可以独立地分析模型在感知和推理方面的表现。对于SFT，采用动态损失重加权策略；对于RL，则引入感知奖励机制。

关键创新：论文的关键创新在于发现了视觉-语言模型后训练中感知和推理优化不对称的现象，并针对不同的训练范式提出了相应的解决方案。具体来说，针对SFT的动态损失重加权策略和针对RL的感知奖励机制，都是具有创新性的方法，能够有效平衡感知和推理的训练信号。

关键设计：对于SFT，动态损失重加权策略的关键在于确定感知相关token的权重。论文采用启发式方法，根据token在输入序列中的位置和类型来确定权重。对于RL，感知奖励的设计需要考虑如何准确地评估模型的感知能力。论文设计了基于groundtruth感知结果的奖励，以及基于替代指标的奖励。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在监督微调（SFT）中，动态重加权损失可以将端到端性能提高高达18.2%。在强化学习（RL）中，添加感知感知的奖励可以将端到端准确率提高高达6.0%；即使没有groundtruth感知奖励，可靠的替代奖励也能产生3.2个点的增益。这些结果验证了所提方法的有效性，并表明平衡感知和推理对于提升视觉-语言模型性能至关重要。

🎯 应用场景

该研究成果可应用于各种需要视觉推理的场景，例如视觉问答、图像描述、机器人导航等。通过平衡感知和推理能力，可以提升视觉-语言模型在这些任务中的性能和鲁棒性，使其能够更好地理解和处理复杂的视觉信息，从而实现更智能的人机交互。

📄 摘要（原文）

Post-training has greatly improved reasoning in frontier vision-language models, yet its gains for perception remain comparatively limited, creating a bottleneck for end-to-end visual reasoning. To investigate this gap, we introduce a controlled diagnostic framework with two synthetic tasks that disentangle perception from reasoning. Our analysis reveals a consistent perception-reasoning asymmetry: posttraining improves reasoning more substantially than perception, though the underlying mechanism differs by training paradigm. For supervised fine-tuning (SFT), this asymmetry stems from token imbalance in chain-of-thought supervision, where perception occupies fewer tokens and thus receives a weaker training signal. Dynamically reweighting the loss mitigates this imbalance and boosts end-to-end performance by up to 18.2. For reinforcement learning (RL), the asymmetry instead arises from reward coupling: outcome rewards correlate more strongly with reasoning than with perception, weakening the signal for perception learning. Adding a perception-aware reward alleviates the imbalance and improves end-to-end accuracy by up to 6.0; even without groundtruth perception rewards, a reliable surrogate reward provide useful signal, yielding gains of 3.2 points. Together, our results comprehensively diagnose asymmetric optimization and suggest concrete interventions to balance perception and reasoning.

On Asymmetric Optimization of Reasoning and Perception in Vision-Language Model Post-Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理