VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation

📄 arXiv: 2510.23497v2 📥 PDF

作者: Walid Bousselham, Hilde Kuehne, Cordelia Schmid

分类: cs.CV

发布日期: 2025-10-27 (更新: 2025-10-28)

备注: www.walidbousselham.com/VOLD/


💡 一句话要点

提出VOLD,通过策略蒸馏将LLM推理能力迁移至视觉-语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉-语言模型 推理能力迁移 在线策略蒸馏 强化学习 群体相对策略优化

📋 核心要点

  1. 高质量图像-文本推理数据稀缺,限制了视觉-语言模型(VLM)的复杂推理能力。
  2. VOLD框架结合强化学习和在线策略蒸馏,将纯文本教师模型的推理能力迁移到VLM学生模型。
  3. 实验表明,VOLD在多个基准测试中显著优于基线模型,并在现有技术水平上有所提高,验证了其有效性。

📝 摘要(中文)

针对视觉-语言模型(VLM)在复杂推理方面面临的挑战,特别是高质量图像-文本推理数据稀缺的问题,本文提出了VOLD框架,旨在将纯文本教师模型的推理能力迁移到VLM学生模型。VOLD结合了基于群体相对策略优化(GRPO)的强化学习和在线策略蒸馏,利用教师模型指导学生模型的推理轨迹,从而显著优于单独使用GRPO。研究表明,冷启动对齐对于在线训练阶段的有效迁移至关重要,并且在教师和学生之间没有充分的分布对齐的情况下,在线策略蒸馏无法提供有意义的指导。VOLD在MMMU-Pro、MathVision、MathVista和LogicVista等多个基准测试中进行了评估,结果表明VOLD显著优于基线模型,并在现有技术水平上有所提高。消融实验表明,通过SFT进行冷启动对齐对于使用纯文本教师模型的在线策略蒸馏至关重要。

🔬 方法详解

问题定义:VLM在复杂推理任务中表现不佳,主要原因是缺乏高质量的图像-文本推理数据。虽然纯文本推理资源丰富,但如何有效利用这些资源来提升VLM的推理能力是一个挑战。现有方法难以有效利用纯文本数据,且训练成本高昂。

核心思路:本文的核心思路是通过在线策略蒸馏,将纯文本LLM的推理能力迁移到VLM。具体来说,利用LLM作为教师模型,生成高质量的推理轨迹,然后通过强化学习和策略蒸馏,引导VLM学生模型学习这些推理轨迹。这种方法可以有效利用丰富的纯文本数据,提升VLM的推理能力。

技术框架:VOLD框架包含以下主要模块:1) 纯文本LLM教师模型:负责生成推理轨迹;2) VLM学生模型:需要学习推理能力;3) 基于GRPO的强化学习模块:用于优化学生模型的策略;4) 在线策略蒸馏模块:利用教师模型的推理轨迹指导学生模型的学习。训练过程包括冷启动对齐和在线训练两个阶段。冷启动对齐通过监督微调(SFT)使学生模型初步具备推理能力,在线训练阶段则利用强化学习和策略蒸馏进一步提升性能。

关键创新:VOLD的关键创新在于结合了强化学习和在线策略蒸馏,实现从纯文本LLM到VLM的推理能力迁移。与传统的离线蒸馏方法不同,VOLD采用在线策略蒸馏,可以动态地利用教师模型的推理轨迹指导学生模型的学习,从而更有效地提升学生模型的性能。此外,冷启动对齐也是一个重要的创新点,它可以确保学生模型在在线训练阶段能够有效地利用教师模型的指导。

关键设计:VOLD的关键设计包括:1) 使用Group Relative Policy Optimization (GRPO)作为强化学习算法,以提高训练的稳定性;2) 设计合适的奖励函数,鼓励学生模型生成正确的推理轨迹;3) 通过监督微调(SFT)进行冷启动对齐,确保学生模型具备初步的推理能力;4) 精心设计的损失函数,平衡强化学习和策略蒸馏之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VOLD在MMMU-Pro、MathVision、MathVista和LogicVista等多个基准测试中取得了显著的性能提升。例如,在MMMU-Pro上,VOLD的性能超过了基线模型,并在现有技术水平上有所提高。消融实验表明,冷启动对齐对于在线策略蒸馏至关重要,没有冷启动对齐,在线策略蒸馏无法提供有意义的指导。

🎯 应用场景

VOLD框架具有广泛的应用前景,可用于提升VLM在各种复杂推理任务中的性能,例如视觉问答、数学问题求解、逻辑推理等。该研究成果有助于开发更智能、更强大的多模态人工智能系统,应用于智能客服、教育辅导、自动驾驶等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Training vision-language models (VLMs) for complex reasoning remains a challenging task, i.a. due to the scarcity of high-quality image-text reasoning data. Conversely, text-based reasoning resources are abundant and scalable, but it is still an open question how to leveraging them for VLM reasoning. To address this problem, we propose VOLD, a framework to transfer reasoning capabilities from text-only teacher models to VLM student models. To this end, VOLD combines reinforcement learning via Group Relative Policy Optimization (GRPO) with on-policy distillation, which allows the student reasoning traces to be guided by the teacher model, resulting in a significant gain over using GRPO alone. We further show that a cold-start alignment is essential for an effective transfer during the online training phase in this scenario and that without sufficient distributional alignment between teacher and student, on-policy distillation fails to provide meaningful guidance. We evaluate VOLD across diverse benchmarks including MMMU-Pro, MathVision, MathVista, and LogicVista, showing that VOLD outperforms the baseline model significantly and improves over the state of the art by a margin. Our ablation shows the importance of a cold-start alignment via SFT for on-policy distillation with a text-only teacher.