Balanced Thinking: Improving Chain of Thought Training in Vision Language Models

作者: Shaked Perek, Ben Wiesel, Avihu Dekel, Nimrod Shabtay, Eli Schwartz

分类: cs.AI

发布日期: 2026-03-19

💡 一句话要点

提出SCALe，通过动态损失加权改进视觉语言模型中的思维链训练

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 思维链 监督微调 动态损失加权 多模态推理

📋 核心要点

传统SFT训练中，推理过程的token不平衡，导致模型过度关注冗长的推理步骤，忽略关键答案。
SCALe通过动态调整损失权重，在训练中逐渐将注意力从推理过程转移到答案，鼓励简洁推理。
实验表明，SCALe在多种基准测试中提升了准确性，并能以更少的训练时间达到SFT+GRPO的效果。

📝 摘要（中文）

视觉语言模型(VLM)中的多模态推理通常依赖于两阶段过程：监督微调(SFT)和强化学习(RL)。在标准SFT中，所有token对损失的贡献相等，但推理数据本质上是token不平衡的。长的轨迹掩盖了短但对任务至关重要的片段，导致冗长的推理和不准确的答案。我们提出了SCALe（Scheduled Curriculum Adaptive Loss），它使用动态的、与长度无关的权重，显式地分离了推理和答案片段上的监督。与过度加权片段的vanilla SFT不同，SCALe-SFT通过余弦调度策略，在训练过程中逐渐将焦点从转移到，从而鼓励简洁且有根据的推理。我们在不同的基准和架构上评估了SCALe。结果表明，SCALe始终优于vanilla SFT，并且匹配了完整的两阶段SFT + GRPO流程的性能，同时只需要大约七分之一的训练时间，使其成为一种轻量级但有效的替代方案。当与GRPO结合使用时，SCALe实现了最佳的整体性能，突出了其作为独立方法和强化改进的强大基础的价值。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型中，使用思维链(Chain-of-Thought, CoT)进行训练时，由于推理过程()和答案()的token数量不平衡，导致模型学习偏向冗长推理，而忽略关键答案信息的问题。现有SFT方法平等对待所有token，无法有效区分推理和答案的重要性，导致模型性能受限。

核心思路：论文的核心思路是引入一个动态的、可调度的损失函数SCALe (Scheduled Curriculum Adaptive Loss)，该损失函数能够根据训练的进度，自适应地调整推理过程和答案部分的权重。通过在训练初期侧重于推理过程，帮助模型学习正确的推理路径，然后在训练后期逐渐将重心转移到答案部分，促使模型生成更准确、更简洁的答案。

技术框架：SCALe-SFT的整体框架仍然是基于标准的监督微调(SFT)，但关键在于损失函数的改进。在每个训练步骤中，模型首先生成思维链，然后计算损失。与传统SFT不同的是，SCALe-SFT将损失分解为推理过程损失和答案损失，并使用一个动态权重系数来平衡这两部分损失。该权重系数通过余弦调度策略进行调整，在训练初期偏向推理过程，后期偏向答案。

关键创新：SCALe的关键创新在于其动态调整损失权重的机制，它显式地将推理过程和答案部分的监督分离，并根据训练进度自适应地调整它们的相对重要性。这种方法与传统的SFT方法不同，后者平等对待所有token，无法有效区分推理和答案的重要性。

关键设计：SCALe-SFT使用余弦调度策略来调整推理过程和答案部分的权重。具体来说，权重系数α(t)随训练步数t变化，初始时α(0)接近1，表示侧重于推理过程，随着t增大，α(t)逐渐减小到接近0，表示侧重于答案。损失函数可以表示为：Loss = α(t) * Loss_think + (1 - α(t)) * Loss_answer。这种设计使得模型能够在训练初期学习正确的推理路径，然后在训练后期专注于生成准确的答案。

🖼️ 关键图片

📊 实验亮点

SCALe在多个视觉语言基准测试中取得了显著的性能提升。例如，在某些数据集上，SCALe-SFT的准确率超过了vanilla SFT，并且能够以大约七分之一的训练时间达到SFT+GRPO的性能。当SCALe与GRPO结合使用时，能够进一步提升模型的性能，达到最佳的整体效果。

🎯 应用场景

该研究成果可广泛应用于需要视觉语言推理的场景，例如视觉问答、图像描述、机器人导航等。通过提升模型的推理能力和答案准确性，可以改善人机交互体验，提高自动化系统的智能化水平。未来，该方法有望应用于更复杂的视觉语言任务，例如视觉故事生成、视频理解等。

📄 摘要（原文）

Multimodal reasoning in vision-language models (VLMs) typically relies on a two-stage process: supervised fine-tuning (SFT) and reinforcement learning (RL). In standard SFT, all tokens contribute equally to the loss, even though reasoning data are inherently token-imbalanced. Long traces overshadow short but task-critical segments, leading to verbose reasoning and inaccurate answers. We propose SCALe (Scheduled Curriculum Adaptive Loss), which explicitly separates supervision over reasoning and answer segments using dynamic, length-independent weighting. Unlike vanilla SFT, which overweights the segment, SCALe-SFT gradually shifts the focus from to throughout training via a cosine scheduling policy, encouraging concise and well-grounded reasoning. We evaluate SCALe across diverse benchmarks and architectures. Results show that SCALe consistently improves accuracy over vanilla SFT and matches the performance of the full two-phase SFT + GRPO pipeline while requiring only about one-seventh of the training time, making it a lightweight yet effective alternative. When combined with GRPO, SCALe achieves the best overall performance, highlighting its value both as a standalone method and as a strong foundation for reinforcement refinement.

Balanced Thinking: Improving Chain of Thought Training in Vision Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理