SPARK: Synergistic Policy And Reward Co-Evolving Framework

📄 arXiv: 2509.22624v1 📥 PDF

作者: Ziyu Liu, Yuhang Zang, Shengyuan Ding, Yuhang Cao, Xiaoyi Dong, Haodong Duan, Dahua Lin, Jiaqi Wang

分类: cs.CV, cs.LG

发布日期: 2025-09-26

备注: Project:https://github.com/InternLM/Spark


💡 一句话要点

SPARK:协同策略与奖励共同进化的LLM/LVLM强化学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 视觉语言模型 奖励模型 协同进化 自我反思 策略优化

📋 核心要点

  1. 现有RLHF方法依赖人工反馈,成本高昂且存在奖励-策略不匹配问题;RLVR方法虽适用于客观任务,但浪费了rollout数据和正确性信号。
  2. SPARK框架通过协同进化策略和奖励模型,利用rollout数据训练生成式奖励模型,无需额外的人工标注,实现高效的自我提升。
  3. 实验表明,SPARK在多个LLM/LVLM模型上,于推理、奖励和通用基准测试中均取得显著性能提升,验证了其鲁棒性和泛化能力。

📝 摘要(中文)

本文提出了一种协同策略与奖励共同进化的框架SPARK,旨在解决大型语言模型(LLM)和大型视觉语言模型(LVLM)在后预训练阶段使用强化学习(RL)时面临的挑战。现有方法如RLVR虽然适用于目标明确的任务,但会浪费rollout数据和正确性信号;而RLHF虽然适用于主观任务,但成本高昂且存在奖励-策略不匹配的风险。SPARK是一种高效、on-policy且稳定的方法,它建立在RLVR的基础上,通过将rollout数据用于训练生成式奖励模型,避免了对单独奖励模型和昂贵的人工偏好数据的需求。SPARK利用点奖励评分、成对比较和基于进一步反思响应的评估等混合目标,使模型能够评估和改进自身响应,从而创建正向协同进化反馈循环。实验结果表明,SPARK在多个LLM和LVLM模型以及多个推理、奖励模型和通用基准测试中取得了显著的性能提升。

🔬 方法详解

问题定义:现有的大型语言模型和视觉语言模型在进行强化学习后训练时,面临着奖励信号获取困难的问题。RLHF依赖于昂贵的人工标注,且存在奖励函数与策略不匹配的风险。RLVR虽然避免了人工标注,但会丢弃rollout数据和正确性信号,造成监督信息的浪费。因此,如何高效地利用数据,避免人工标注,并保证奖励信号的准确性,是本文要解决的核心问题。

核心思路:SPARK的核心思路是协同进化策略和奖励模型。具体来说,就是利用策略模型生成的rollout数据,同时训练一个奖励模型,该奖励模型能够评估策略模型的输出质量。通过这种方式,策略模型的优化可以促进奖励模型的提升,而更准确的奖励模型又可以为策略模型提供更好的梯度信号,从而形成一个正向的反馈循环。这种协同进化的方式可以有效地利用数据,避免人工标注,并提高模型的性能。

技术框架:SPARK框架主要包含以下几个模块:1) 策略模型:负责生成模型的输出,例如文本或图像。2) 奖励模型:负责评估策略模型输出的质量,并给出奖励信号。3) 训练模块:负责利用rollout数据,同时训练策略模型和奖励模型。训练过程中,策略模型通过强化学习算法进行优化,奖励模型通过监督学习算法进行优化。奖励模型的训练目标包括点奖励评分、成对比较和基于进一步反思响应的评估等。

关键创新:SPARK的关键创新在于协同进化策略和奖励模型。与传统的强化学习方法不同,SPARK不需要单独的奖励模型或人工标注数据,而是通过自我学习的方式,不断提升策略模型和奖励模型的性能。这种协同进化的方式可以更有效地利用数据,并提高模型的泛化能力。

关键设计:SPARK的关键设计包括:1) 混合奖励目标:奖励模型使用点奖励评分、成对比较和基于进一步反思响应的评估等混合目标进行训练,以提高奖励信号的准确性。2) On-policy训练:SPARK采用on-policy的训练方式,保证策略模型和奖励模型的一致性。3) 自反思机制:SPARK利用自反思机制,让模型能够评估和改进自身的响应,从而进一步提高模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SPARK在多个LLM和LVLM模型上取得了显著的性能提升。例如,SPARK-VL-7B在7个推理基准测试中平均提升了9.7%,在2个奖励基准测试中平均提升了12.1%,在8个通用基准测试中平均提升了1.5%。这些结果表明,SPARK具有良好的鲁棒性和泛化能力。

🎯 应用场景

SPARK框架可广泛应用于各种需要强化学习后训练的大型语言模型和视觉语言模型,例如对话系统、文本生成、图像生成等。该方法能够有效降低人工标注成本,提高模型性能和泛化能力,具有重要的实际应用价值和未来发展潜力。通过持续的策略与奖励协同进化,有望实现更智能、更高效的AI系统。

📄 摘要(原文)

Recent Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) increasingly use Reinforcement Learning (RL) for post-pretraining, such as RL with Verifiable Rewards (RLVR) for objective tasks and RL from Human Feedback (RLHF) for subjective tasks. However, RLHF incurs high costs and potential reward-policy mismatch due to reliance on human preferences, while RLVR still wastes supervision by discarding rollouts and correctness signals after each update. To address these challenges, we introduce the Synergistic Policy And Reward Co-Evolving Framework (SPARK), an efficient, on-policy, and stable method that builds on RLVR. Instead of discarding rollouts and correctness data, SPARK recycles this valuable information to simultaneously train the model itself as a generative reward model. This auxiliary training uses a mix of objectives, such as pointwise reward score, pairwise comparison, and evaluation conditioned on further-reflection responses, to teach the model to evaluate and improve its own responses. Our process eliminates the need for a separate reward model and costly human preference data. SPARK creates a positive co-evolving feedback loop: improved reward accuracy yields better policy gradients, which in turn produce higher-quality rollouts that further refine the reward model. Our unified framework supports test-time scaling via self-reflection without external reward models and their associated costs. We show that SPARK achieves significant performance gains on multiple LLM and LVLM models and multiple reasoning, reward models, and general benchmarks. For example, SPARK-VL-7B achieves an average 9.7% gain on 7 reasoning benchmarks, 12.1% on 2 reward benchmarks, and 1.5% on 8 general benchmarks over the baselines, demonstrating robustness and broad generalization.