Empowering Lightweight MLLMs with Reasoning via Long CoT SFT

📄 arXiv: 2509.03321v2 📥 PDF

作者: Linyu Ou, YuYang Yin

分类: cs.CV

发布日期: 2025-09-03 (更新: 2025-10-09)


💡 一句话要点

长CoT SFT赋能轻量级MLLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 轻量级MLLM 长链式思考 监督式微调 推理能力 多模态学习

📋 核心要点

  1. 现有方法难以有效提升轻量级多模态语言模型(MLLM)的推理能力。
  2. 通过长链式思考(long CoT)数据的监督式微调(SFT)来增强MLLM的推理能力。
  3. 实验表明,长CoT SFT显著提升了MLLM的推理性能,并为后续强化学习奠定基础。

📝 摘要(中文)

尽管使用可验证奖励的强化学习已经提升了大规模语言模型(LLM)的推理能力,但其在参数少于70亿的轻量级多模态语言模型(MLLM)上的有效性仍未被充分探索。本文研究了长链式思考(long CoT)数据在增强此类MLLM推理能力中的作用。我们的研究结果表明,使用长CoT数据进行监督式微调(SFT)可以显著提高MLLM的推理能力。此外,我们观察到,在初始SFT阶段之后,MLLM可以通过后续的强化学习阶段获得额外的性能提升。我们得出结论,使用长CoT数据进行SFT阶段是开发轻量级MLLM推理能力的关键先决条件。

🔬 方法详解

问题定义:论文旨在解决轻量级多模态语言模型(MLLM)推理能力不足的问题。现有方法,特别是针对大规模语言模型(LLM)的强化学习方法,在直接应用于轻量级MLLM时效果不佳,无法充分激发其推理潜力。因此,如何有效地提升轻量级MLLM的推理能力是一个关键挑战。

核心思路:论文的核心思路是利用长链式思考(long CoT)数据进行监督式微调(SFT)。CoT数据能够引导模型逐步推理,而“长”CoT数据则提供更详细、更复杂的推理过程,从而使模型能够学习到更深层次的推理模式。通过SFT,模型可以模仿长CoT数据中的推理过程,从而提升自身的推理能力。

技术框架:整体框架包含两个主要阶段:首先是使用长CoT数据进行监督式微调(SFT)。然后,可以选择性地进行强化学习(RL)阶段,以进一步提升性能。SFT阶段是核心,为后续的RL阶段奠定基础。具体流程是,首先收集或生成长CoT数据,然后使用这些数据对轻量级MLLM进行微调。微调的目标是使模型能够生成与CoT数据相似的推理链。

关键创新:最重要的技术创新点在于强调了长CoT数据在提升轻量级MLLM推理能力中的关键作用。与以往侧重于强化学习的方法不同,该论文表明,通过高质量的长CoT数据进行SFT,可以显著提升MLLM的推理能力,并且是后续强化学习的基础。这种方法更适用于资源有限的轻量级模型。

关键设计:论文的关键设计在于长CoT数据的选择和构建,以及SFT阶段的训练策略。具体的技术细节,例如损失函数、网络结构等,论文中未详细说明,但可以推测采用的是标准的语言模型训练方法,例如交叉熵损失函数。长CoT数据的质量和多样性是影响最终性能的关键因素。具体的参数设置未知。

🖼️ 关键图片

fig_0

📊 实验亮点

论文的主要实验结果表明,通过长CoT SFT,轻量级MLLM的推理能力得到了显著提升。虽然论文中没有提供具体的性能数据和对比基线,但强调了SFT阶段的重要性,并指出其为后续的强化学习奠定了基础。具体的提升幅度未知,但结论是长CoT SFT是关键的先决条件。

🎯 应用场景

该研究成果可应用于各种需要轻量级多模态推理能力的场景,例如移动设备上的智能助手、嵌入式视觉问答系统、以及资源受限环境下的机器人导航等。通过提升轻量级MLLM的推理能力,可以使其在这些场景中更好地理解和处理复杂的多模态信息,从而提供更智能、更高效的服务。

📄 摘要(原文)

While Reinforcement Learning with Verifiable Rewards has enhanced the reasoning of large-scale language models (LLMs), its efficacy for lightweight multimodal language models (MLLMs) with fewer than seven billion parameters remains underexplored. This paper investigates the role of long Chain-of-Thought (long CoT) data in enhancing the reasoning abilities of such MLLMs. Our findings demonstrate that Supervised Fine-Tuning (SFT) with long CoT data significantly improves MLLM reasoning. Furthermore, we observe that after this initial SFT phase, MLLMs can achieve additional performance gains through a subsequent RL stage. We conclude that a SFT stage with long CoT data is a critical prerequisite for developing the reasoning capabilities of lightweight MLLMs.