VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation

作者: Walid Bousselham, Hilde Kuehne, Cordelia Schmid

分类: cs.CV

发布日期: 2025-10-27 (更新: 2025-10-28)

备注: www.walidbousselham.com/VOLD/

💡 一句话要点

提出VOLD框架，通过策略蒸馏将LLM的推理能力迁移到视觉-语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉-语言模型 推理能力迁移 在线策略蒸馏 强化学习 群体相对策略优化

📋 核心要点

VLM在复杂推理任务中面临数据稀缺的挑战，限制了其性能提升。
VOLD框架通过在线策略蒸馏，将文本LLM的推理能力迁移到VLM，实现知识共享。
实验表明，VOLD在多个推理基准上显著优于现有方法，验证了其有效性。

📝 摘要（中文）

针对视觉-语言模型(VLM)在复杂推理方面面临的挑战，特别是高质量图像-文本推理数据稀缺的问题，本文提出了VOLD框架，旨在将纯文本教师模型的推理能力迁移到VLM学生模型。VOLD结合了基于群体相对策略优化(GRPO)的强化学习和在线策略蒸馏，利用教师模型的推理轨迹来指导学生模型，从而显著优于单独使用GRPO。研究表明，冷启动对齐对于在线训练阶段的有效迁移至关重要，如果教师和学生之间的分布对齐不足，在线策略蒸馏将无法提供有意义的指导。VOLD在MMMU-Pro、MathVision、MathVista和LogicVista等多个基准测试中进行了评估，结果表明VOLD显著优于基线模型，并在现有技术水平上有所提高。消融实验表明，通过SFT进行冷启动对齐对于使用纯文本教师模型的在线策略蒸馏至关重要。

🔬 方法详解

问题定义：视觉-语言模型(VLM)在进行复杂推理时，面临高质量图像-文本推理数据稀缺的挑战。虽然纯文本推理资源丰富且易于扩展，但如何有效地利用这些资源来提升VLM的推理能力仍然是一个开放性问题。现有方法难以充分利用文本推理资源，且在数据稀缺的情况下泛化能力有限。

核心思路：VOLD的核心思路是通过在线策略蒸馏，将纯文本教师模型（LLM）的推理能力迁移到VLM学生模型。具体来说，利用教师模型生成的推理轨迹来指导学生模型的学习过程，从而使学生模型能够模仿教师模型的推理策略，提升其在视觉-语言推理任务中的性能。这种方法充分利用了丰富的文本推理资源，并克服了数据稀缺带来的挑战。

技术框架：VOLD框架主要包含以下几个关键模块：1) 教师模型（纯文本LLM）：负责生成推理轨迹，提供推理指导。2) 学生模型（VLM）：负责学习教师模型的推理策略，并在视觉-语言推理任务中进行推理。3) 基于群体相对策略优化(GRPO)的强化学习：用于优化学生模型的策略，使其更好地模仿教师模型的推理轨迹。4) 在线策略蒸馏：利用教师模型的推理轨迹来指导学生模型的学习过程，实现知识迁移。5) 冷启动对齐：通过监督微调(SFT)对学生模型进行预训练，使其与教师模型具有相似的分布，从而提高在线策略蒸馏的有效性。

关键创新：VOLD的关键创新在于结合了强化学习和在线策略蒸馏，实现从纯文本教师模型到VLM学生模型的推理能力迁移。与传统的离线蒸馏方法不同，VOLD采用在线策略蒸馏，可以动态地利用教师模型的推理轨迹来指导学生模型的学习过程，从而更有效地迁移知识。此外，VOLD还引入了冷启动对齐，通过监督微调(SFT)对学生模型进行预训练，使其与教师模型具有相似的分布，从而提高在线策略蒸馏的有效性。

关键设计：VOLD的关键设计包括：1) 使用Group Relative Policy Optimization (GRPO) 作为强化学习算法，优化学生模型的策略。2) 使用KL散度作为蒸馏损失，衡量学生模型和教师模型之间的策略差异。3) 通过监督微调(SFT)进行冷启动对齐，使用文本数据对学生模型进行预训练，使其与教师模型具有相似的分布。4) 在线策略蒸馏过程中，动态调整蒸馏损失的权重，以平衡探索和利用。

📊 实验亮点

VOLD在MMMU-Pro、MathVision、MathVista和LogicVista等多个基准测试中取得了显著的性能提升。例如，在MMMU-Pro上，VOLD的性能超过基线模型，并在现有技术水平上有所提高。消融实验表明，冷启动对齐对于在线策略蒸馏至关重要，验证了VOLD框架的有效性。

🎯 应用场景

VOLD框架具有广泛的应用前景，可用于提升VLM在各种复杂推理任务中的性能，例如视觉问答、图像描述、视觉推理等。该研究成果有助于开发更智能、更强大的多模态人工智能系统，可应用于智能助手、自动驾驶、医疗诊断等领域，具有重要的实际价值和未来影响。

📄 摘要（原文）

Training vision-language models (VLMs) for complex reasoning remains a challenging task, i.a. due to the scarcity of high-quality image-text reasoning data. Conversely, text-based reasoning resources are abundant and scalable, but it is still an open question how to leveraging them for VLM reasoning. To address this problem, we propose VOLD, a framework to transfer reasoning capabilities from text-only teacher models to VLM student models. To this end, VOLD combines reinforcement learning via Group Relative Policy Optimization (GRPO) with on-policy distillation, which allows the student reasoning traces to be guided by the teacher model, resulting in a significant gain over using GRPO alone. We further show that a cold-start alignment is essential for an effective transfer during the online training phase in this scenario and that without sufficient distributional alignment between teacher and student, on-policy distillation fails to provide meaningful guidance. We evaluate VOLD across diverse benchmarks including MMMU-Pro, MathVision, MathVista, and LogicVista, showing that VOLD outperforms the baseline model significantly and improves over the state of the art by a margin. Our ablation shows the importance of a cold-start alignment via SFT for on-policy distillation with a text-only teacher.

VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册