RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

📄 arXiv: 2602.21628v1 📥 PDF

作者: Yukun Chen, Jiaming Li, Longze Chen, Ze Gong, Jingpeng Li, Zhen Qin, Hengyu Chang, Ancheng Xu, Zhihao Yang, Hamid Alinejad-Rokny, Qiang Qu, Bo Zheng, Min Yang

分类: cs.CL

发布日期: 2026-02-25

备注: 8 pages


💡 一句话要点

提出基于分层评分准则课程学习的RuCL框架,提升多模态大语言模型的推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉推理 强化学习 课程学习 奖励设计 评分准则 分层学习

📋 核心要点

  1. 现有基于结果监督的RLVR方法易受奖励利用影响,模型可能学习到虚假的推理模式。
  2. RuCL通过生成通用评分准则并根据模型能力分层,动态调整权重,实现更有效的课程学习。
  3. 实验表明,RuCL在视觉推理基准上取得了显著提升,平均提升7.83%,达到60.06%的SOTA准确率。

📝 摘要(中文)

强化学习与可验证奖励(RLVR)已成为增强多模态大语言模型(MLLM)推理能力的主流范式。然而,仅依赖结果监督存在奖励利用的风险,模型可能学习到虚假的推理模式以满足最终答案检查。虽然最近基于评分准则的方法提供了细粒度的监督信号,但它们面临着实例级别生成的高计算成本以及将所有评分准则视为同等可学习而导致的低效训练动态。本文提出了分层评分准则课程学习(RuCL),这是一个新颖的框架,通过将重点从数据选择转移到奖励设计来重新构建课程学习。RuCL生成具有广泛适用性的通用评分准则,并根据模型的能力对其进行分层。通过在训练期间动态调整评分准则的权重,RuCL引导模型从掌握基础感知到处理高级逻辑推理。在各种视觉推理基准上的大量实验表明,RuCL相对于Qwen2.5-VL-7B模型产生了显著的+7.83%的平均改进,实现了60.06%的最先进准确率。

🔬 方法详解

问题定义:现有基于强化学习的多模态大语言模型推理方法,尤其是依赖可验证奖励(RLVR)的方法,容易出现奖励利用(reward hacking)问题。模型为了获得更高的奖励,可能会学习到一些虚假的、不符合逻辑的推理模式,仅仅是为了通过最终答案的检查。而基于评分准则的方法虽然提供了更细粒度的监督信号,但存在两个主要痛点:一是实例级别的评分准则生成需要很高的计算成本;二是将所有评分准则视为同等重要,导致训练效率低下。

核心思路:RuCL的核心思路是通过分层评分准则的课程学习来解决上述问题。它不再像传统课程学习那样侧重于数据选择,而是将重点放在奖励设计上。通过设计通用的、可泛化的评分准则,并根据模型的能力水平对这些准则进行分层,从而实现更有效的学习过程。模型首先学习掌握基础的感知能力,然后逐步提升到高级的逻辑推理能力。

技术框架:RuCL框架主要包含以下几个关键模块:1) 通用评分准则生成模块:负责生成适用于多种场景的、可泛化的评分准则。2) 评分准则分层模块:根据模型的能力水平,将评分准则划分为不同的层次,例如基础感知层、逻辑推理层等。3) 动态权重调整模块:在训练过程中,根据模型在不同层次评分准则上的表现,动态调整各个层次评分准则的权重。4) 强化学习训练模块:利用调整后的评分准则权重,对多模态大语言模型进行强化学习训练。

关键创新:RuCL最重要的创新点在于其分层评分准则的课程学习方法。与现有方法相比,RuCL不再将所有评分准则视为同等重要,而是根据模型的能力水平,动态调整不同层次评分准则的权重。这种方法能够更有效地引导模型从基础能力到高级能力的学习,避免了奖励利用问题,并提高了训练效率。

关键设计:RuCL的关键设计包括:1) 通用评分准则的设计:评分准则需要足够通用,能够适用于多种不同的视觉推理任务。2) 评分准则分层的策略:需要根据模型的能力水平,合理地划分评分准则的层次。3) 动态权重调整的算法:需要设计一种有效的算法,根据模型在不同层次评分准则上的表现,动态调整各个层次评分准则的权重。具体的损失函数和网络结构细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RuCL在多个视觉推理基准测试中取得了显著的性能提升。相较于Qwen2.5-VL-7B模型,RuCL实现了平均7.83%的准确率提升,最终达到了60.06%的最先进(SOTA)准确率。这一结果表明RuCL在提升多模态大语言模型推理能力方面的有效性。

🎯 应用场景

RuCL框架具有广泛的应用前景,可用于提升各种多模态大语言模型在视觉推理、问答等任务中的性能。该方法能够有效缓解奖励利用问题,提高模型的鲁棒性和泛化能力。未来,RuCL可以应用于智能客服、自动驾驶、医疗诊断等领域,为这些应用提供更可靠、更准确的视觉推理能力。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a prevailing paradigm for enhancing reasoning in Multimodal Large Language Models (MLLMs). However, relying solely on outcome supervision risks reward hacking, where models learn spurious reasoning patterns to satisfy final answer checks. While recent rubric-based approaches offer fine-grained supervision signals, they suffer from high computational costs of instance-level generation and inefficient training dynamics caused by treating all rubrics as equally learnable. In this paper, we propose Stratified Rubric-based Curriculum Learning (RuCL), a novel framework that reformulates curriculum learning by shifting the focus from data selection to reward design. RuCL generates generalized rubrics for broad applicability and stratifies them based on the model's competence. By dynamically adjusting rubric weights during training, RuCL guides the model from mastering foundational perception to tackling advanced logical reasoning. Extensive experiments on various visual reasoning benchmarks show that RuCL yields a remarkable +7.83% average improvement over the Qwen2.5-VL-7B model, achieving a state-of-the-art accuracy of 60.06%.