PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

作者: Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu, Chaojun Xiao, Chen Chen, Wenxuan Wang, Beier Zhu, Yunjian Zhang, Chengwei Qin

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-30

🔗 代码/项目: GITHUB

💡 一句话要点

PRISM：通过黑盒策略蒸馏预对齐提升多模态强化学习性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态强化学习 策略蒸馏 分布对齐 黑盒优化 混合专家模型

📋 核心要点

现有大型多模态模型微调后，监督微调(SFT)引入分布漂移，导致模型能力下降，且感知和推理错误在后续强化学习中被放大。
PRISM通过在SFT和RLVR之间加入分布对齐阶段，利用黑盒策略蒸馏，使策略向监督分布靠拢，缓解分布漂移问题。
实验表明，PRISM在多种RL算法和多模态基准测试中，显著提升了下游RLVR的性能，平均准确率提升了4.4%到6.0%。

📝 摘要（中文）

大型多模态模型（LMMs）的标准后训练流程通常包括：首先在精心策划的演示数据上进行监督微调（SFT），然后使用可验证奖励进行强化学习（RLVR）。然而，SFT会引入分布漂移，既不能保留模型原有的能力，也不能忠实地匹配监督分布。在多模态推理中，这个问题会被进一步放大，因为感知错误和推理失败遵循不同的漂移模式，并在后续的强化学习过程中复合。我们提出了PRISM，一个三阶段流程，通过在SFT和RLVR之间插入一个显式的分布对齐阶段来缓解这种漂移。基于策略蒸馏（OPD）的原则，PRISM将对齐过程建模为策略和一个混合专家（MoE）判别器之间的黑盒、响应级别的对抗博弈，该判别器具有专门的感知和推理专家，提供了解耦的校正信号，引导策略向监督分布靠拢，而无需访问教师logits。虽然126万个公共演示数据足以进行广泛的SFT初始化，但分布对齐需要更高保真度的监督；因此，我们从Gemini 3 Flash中策划了11.3万个额外的演示数据，这些数据具有密集的视觉基础和对最难未解决问题的逐步推理。在Qwen3-VL上的实验表明，PRISM在多个RL算法（GRPO、DAPO、GSPO）和不同的多模态基准测试中，始终如一地提高了下游RLVR的性能，在4B和8B模型上，平均准确率分别比SFT-to-RLVR基线提高了+4.4和+6.0个百分点。我们的代码、数据和模型检查点可在https://github.com/XIAO4579/PRISM公开获取。

🔬 方法详解

问题定义：现有的大型多模态模型在经过监督微调（SFT）后，会产生分布漂移的问题。这种漂移使得模型既不能完全保留原有的能力，也不能完全匹配监督数据的分布。尤其是在多模态推理任务中，感知和推理模块的错误会以不同的模式漂移，并在后续的强化学习（RL）过程中相互叠加，导致性能下降。因此，如何有效地缓解SFT带来的分布漂移，是本文要解决的核心问题。

核心思路：PRISM的核心思路是在SFT和RLVR之间插入一个显式的分布对齐阶段。该阶段利用策略蒸馏（OPD）的思想，将分布对齐问题转化为一个策略和一个混合专家（MoE）判别器之间的对抗博弈。通过这种方式，模型可以在不访问教师模型logits的情况下，学习到如何更好地匹配监督数据的分布，从而缓解分布漂移。

技术框架：PRISM是一个三阶段的训练流程：1) 监督微调（SFT）：使用大规模的公开数据集对模型进行初始化。2) 分布对齐：这是PRISM的核心阶段，利用黑盒策略蒸馏，通过对抗博弈的方式，使模型策略与监督数据分布对齐。MoE判别器包含感知和推理专家，分别负责评估策略在感知和推理方面的表现，并提供解耦的校正信号。3) 强化学习（RLVR）：使用可验证的奖励信号对模型进行强化学习，进一步提升模型的性能。

关键创新：PRISM的关键创新在于引入了黑盒策略蒸馏来进行分布对齐。与传统的知识蒸馏方法不同，PRISM不需要访问教师模型的logits，而是通过一个对抗博弈的方式，让模型学习如何更好地匹配监督数据的分布。此外，PRISM还使用了MoE判别器，将感知和推理的评估解耦，从而可以提供更细粒度的校正信号。

关键设计：PRISM的关键设计包括：1) MoE判别器：MoE判别器由感知和推理专家组成，每个专家负责评估策略在特定方面的表现。2) 对抗损失：策略的目标是最大化判别器的损失，而判别器的目标是最小化自身的损失。通过这种对抗的方式，策略可以学习到如何更好地匹配监督数据的分布。3) 数据增强：为了提高模型的泛化能力，PRISM使用了数据增强技术，例如随机裁剪、旋转等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PRISM在Qwen3-VL模型上，使用GRPO、DAPO、GSPO等多种RL算法进行强化学习时，相比于直接从SFT到RLVR的基线方法，平均准确率分别提升了4.4%（4B模型）和6.0%（8B模型）。这些结果证明了PRISM在缓解分布漂移和提升多模态强化学习性能方面的有效性。

🎯 应用场景

PRISM的研究成果可广泛应用于需要多模态理解和推理的机器人、自动驾驶、智能助手等领域。通过提升多模态模型的性能和鲁棒性，可以提高这些应用在复杂环境中的适应性和决策能力，例如在复杂场景下进行目标识别、导航和人机交互等任务。未来，该方法有望推动多模态人工智能技术的发展，并为更智能、更可靠的智能系统奠定基础。

📄 摘要（原文）

The standard post-training recipe for large multimodal models (LMMs) applies supervised fine-tuning (SFT) on curated demonstrations followed by reinforcement learning with verifiable rewards (RLVR). However, SFT introduces distributional drift that neither preserves the model's original capabilities nor faithfully matches the supervision distribution. This problem is further amplified in multimodal reasoning, where perception errors and reasoning failures follow distinct drift patterns that compound during subsequent RL. We introduce PRISM, a three-stage pipeline that mitigates this drift by inserting an explicit distribution-alignment stage between SFT and RLVR. Building on the principle of on-policy distillation (OPD), PRISM casts alignment as a black-box, response-level adversarial game between the policy and a Mixture-of-Experts (MoE) discriminator with dedicated perception and reasoning experts, providing disentangled corrective signals that steer the policy toward the supervision distribution without requiring access to teacher logits. While 1.26M public demonstrations suffice for broad SFT initialization, distribution alignment demands higher-fidelity supervision; we therefore curate 113K additional demonstrations from Gemini 3 Flash, featuring dense visual grounding and step-by-step reasoning on the hardest unsolved problems. Experiments on Qwen3-VL show that PRISM consistently improves downstream RLVR performance across multiple RL algorithms (GRPO, DAPO, GSPO) and diverse multimodal benchmarks, improving average accuracy by +4.4 and +6.0 points over the SFT-to-RLVR baseline on 4B and 8B, respectively. Our code, data, and model checkpoints are publicly available at https://github.com/XIAO4579/PRISM.

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理