Balanced Thinking: Improving Chain of Thought Training in Vision Language Models

📄 arXiv: 2603.18656v1 📥 PDF

作者: Shaked Perek, Ben Wiesel, Avihu Dekel, Nimrod Shabtay, Eli Schwartz

分类: cs.AI

发布日期: 2026-03-19


💡 一句话要点

提出SCALe,通过动态损失加权改进视觉语言模型中的思维链训练

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 思维链 监督微调 动态损失加权 多模态推理

📋 核心要点

  1. 传统SFT训练中,推理过程的token不平衡,导致模型过度关注冗长的推理步骤,忽略关键答案。
  2. SCALe通过动态调整损失权重,在训练中逐渐将注意力从推理过程转移到答案,鼓励简洁推理。
  3. 实验表明,SCALe在多种基准测试中提升了准确性,并能以更少的训练时间达到SFT+GRPO的效果。

📝 摘要(中文)

视觉语言模型(VLM)中的多模态推理通常依赖于两阶段过程:监督微调(SFT)和强化学习(RL)。在标准SFT中,所有token对损失的贡献相等,但推理数据本质上是token不平衡的。长的轨迹掩盖了短但对任务至关重要的片段,导致冗长的推理和不准确的答案。我们提出了SCALe(Scheduled Curriculum Adaptive Loss),它使用动态的、与长度无关的权重,显式地分离了推理和答案片段上的监督。与过度加权片段的vanilla SFT不同,SCALe-SFT通过余弦调度策略,在训练过程中逐渐将焦点从转移到,从而鼓励简洁且有根据的推理。我们在不同的基准和架构上评估了SCALe。结果表明,SCALe始终优于vanilla SFT,并且匹配了完整的两阶段SFT + GRPO流程的性能,同时只需要大约七分之一的训练时间,使其成为一种轻量级但有效的替代方案。当与GRPO结合使用时,SCALe实现了最佳的整体性能,突出了其作为独立方法和强化改进的强大基础的价值。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型中,使用思维链(Chain-of-Thought, CoT)进行训练时,由于推理过程()和答案()的token数量不平衡,导致模型学习偏向冗长推理,而忽略关键答案信息的问题。现有SFT方法平等对待所有token,无法有效区分推理和答案的重要性,导致模型性能受限。

核心思路:论文的核心思路是引入一个动态的、可调度的损失函数SCALe (Scheduled Curriculum Adaptive Loss),该损失函数能够根据训练的进度,自适应地调整推理过程和答案部分的权重。通过在训练初期侧重于推理过程,帮助模型学习正确的推理路径,然后在训练后期逐渐将重心转移到答案部分,促使模型生成更准确、更简洁的答案。

技术框架:SCALe-SFT的整体框架仍然是基于标准的监督微调(SFT),但关键在于损失函数的改进。在每个训练步骤中,模型首先生成思维链,然后计算损失。与传统SFT不同的是,SCALe-SFT将损失分解为推理过程损失和答案损失,并使用一个动态权重系数来平衡这两部分损失。该权重系数通过余弦调度策略进行调整,在训练初期偏向推理过程,后期偏向答案。

关键创新:SCALe的关键创新在于其动态调整损失权重的机制,它显式地将推理过程和答案部分的监督分离,并根据训练进度自适应地调整它们的相对重要性。这种方法与传统的SFT方法不同,后者平等对待所有token,无法有效区分推理和答案的重要性。

关键设计:SCALe-SFT使用余弦调度策略来调整推理过程和答案部分的权重。具体来说,权重系数α(t)随训练步数t变化,初始时α(0)接近1,表示侧重于推理过程,随着t增大,α(t)逐渐减小到接近0,表示侧重于答案。损失函数可以表示为:Loss = α(t) * Loss_think + (1 - α(t)) * Loss_answer。这种设计使得模型能够在训练初期学习正确的推理路径,然后在训练后期专注于生成准确的答案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SCALe在多个视觉语言基准测试中取得了显著的性能提升。例如,在某些数据集上,SCALe-SFT的准确率超过了vanilla SFT,并且能够以大约七分之一的训练时间达到SFT+GRPO的性能。当SCALe与GRPO结合使用时,能够进一步提升模型的性能,达到最佳的整体效果。

🎯 应用场景

该研究成果可广泛应用于需要视觉语言推理的场景,例如视觉问答、图像描述、机器人导航等。通过提升模型的推理能力和答案准确性,可以改善人机交互体验,提高自动化系统的智能化水平。未来,该方法有望应用于更复杂的视觉语言任务,例如视觉故事生成、视频理解等。

📄 摘要(原文)

Multimodal reasoning in vision-language models (VLMs) typically relies on a two-stage process: supervised fine-tuning (SFT) and reinforcement learning (RL). In standard SFT, all tokens contribute equally to the loss, even though reasoning data are inherently token-imbalanced. Long traces overshadow short but task-critical segments, leading to verbose reasoning and inaccurate answers. We propose SCALe (Scheduled Curriculum Adaptive Loss), which explicitly separates supervision over reasoning and answer segments using dynamic, length-independent weighting. Unlike vanilla SFT, which overweights the segment, SCALe-SFT gradually shifts the focus from to throughout training via a cosine scheduling policy, encouraging concise and well-grounded reasoning. We evaluate SCALe across diverse benchmarks and architectures. Results show that SCALe consistently improves accuracy over vanilla SFT and matches the performance of the full two-phase SFT + GRPO pipeline while requiring only about one-seventh of the training time, making it a lightweight yet effective alternative. When combined with GRPO, SCALe achieves the best overall performance, highlighting its value both as a standalone method and as a strong foundation for reinforcement refinement.