Balanced Thinking: Improving Chain of Thought Training in Vision Language Models
作者: Shaked Perek, Ben Wiesel, Avihu Dekel, Nimrod Shabtay, Eli Schwartz
分类: cs.AI
发布日期: 2026-03-19
💡 一句话要点
提出SCALe,通过动态损失加权改进视觉语言模型中的思维链训练
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 思维链 监督微调 动态损失加权 多模态推理
📋 核心要点
- 传统SFT训练中,推理过程的token不平衡,导致模型过度关注冗长的推理步骤,忽略关键答案。
- SCALe通过动态调整损失权重,在训练中逐渐将注意力从推理过程转移到答案,鼓励简洁推理。
- 实验表明,SCALe在多种基准测试中提升了准确性,并能以更少的训练时间达到SFT+GRPO的效果。
📝 摘要(中文)
视觉语言模型(VLM)中的多模态推理通常依赖于两阶段过程:监督微调(SFT)和强化学习(RL)。在标准SFT中,所有token对损失的贡献相等,但推理数据本质上是token不平衡的。长的
🔬 方法详解
问题定义:论文旨在解决视觉语言模型中,使用思维链(Chain-of-Thought, CoT)进行训练时,由于推理过程(
核心思路:论文的核心思路是引入一个动态的、可调度的损失函数SCALe (Scheduled Curriculum Adaptive Loss),该损失函数能够根据训练的进度,自适应地调整推理过程和答案部分的权重。通过在训练初期侧重于推理过程,帮助模型学习正确的推理路径,然后在训练后期逐渐将重心转移到答案部分,促使模型生成更准确、更简洁的答案。
技术框架:SCALe-SFT的整体框架仍然是基于标准的监督微调(SFT),但关键在于损失函数的改进。在每个训练步骤中,模型首先生成思维链,然后计算损失。与传统SFT不同的是,SCALe-SFT将损失分解为推理过程损失和答案损失,并使用一个动态权重系数来平衡这两部分损失。该权重系数通过余弦调度策略进行调整,在训练初期偏向推理过程,后期偏向答案。
关键创新:SCALe的关键创新在于其动态调整损失权重的机制,它显式地将推理过程和答案部分的监督分离,并根据训练进度自适应地调整它们的相对重要性。这种方法与传统的SFT方法不同,后者平等对待所有token,无法有效区分推理和答案的重要性。
关键设计:SCALe-SFT使用余弦调度策略来调整推理过程和答案部分的权重。具体来说,权重系数α(t)随训练步数t变化,初始时α(0)接近1,表示侧重于推理过程,随着t增大,α(t)逐渐减小到接近0,表示侧重于答案。损失函数可以表示为:Loss = α(t) * Loss_think + (1 - α(t)) * Loss_answer。这种设计使得模型能够在训练初期学习正确的推理路径,然后在训练后期专注于生成准确的答案。
🖼️ 关键图片
📊 实验亮点
SCALe在多个视觉语言基准测试中取得了显著的性能提升。例如,在某些数据集上,SCALe-SFT的准确率超过了vanilla SFT,并且能够以大约七分之一的训练时间达到SFT+GRPO的性能。当SCALe与GRPO结合使用时,能够进一步提升模型的性能,达到最佳的整体效果。
🎯 应用场景
该研究成果可广泛应用于需要视觉语言推理的场景,例如视觉问答、图像描述、机器人导航等。通过提升模型的推理能力和答案准确性,可以改善人机交互体验,提高自动化系统的智能化水平。未来,该方法有望应用于更复杂的视觉语言任务,例如视觉故事生成、视频理解等。
📄 摘要(原文)
Multimodal reasoning in vision-language models (VLMs) typically relies on a two-stage process: supervised fine-tuning (SFT) and reinforcement learning (RL). In standard SFT, all tokens contribute equally to the loss, even though reasoning data are inherently token-imbalanced. Long
traces overshadow short but task-critical segments, leading to verbose reasoning and inaccurate answers. We propose SCALe (Scheduled Curriculum Adaptive Loss), which explicitly separates supervision over reasoning and answer segments using dynamic, length-independent weighting. Unlike vanilla SFT, which overweights the segment, SCALe-SFT gradually shifts the focus from to throughout training via a cosine scheduling policy, encouraging concise and well-grounded reasoning. We evaluate SCALe across diverse benchmarks and architectures. Results show that SCALe consistently improves accuracy over vanilla SFT and matches the performance of the full two-phase SFT + GRPO pipeline while requiring only about one-seventh of the training time, making it a lightweight yet effective alternative. When combined with GRPO, SCALe achieves the best overall performance, highlighting its value both as a standalone method and as a strong foundation for reinforcement refinement.