Rethinking Multiple-Choice Questions for RLVR: Unlocking Potential via Distractor Design

📄 arXiv: 2603.12826v1 📥 PDF

作者: Xu Guo, Qiming Ge, Jian Tong, Kedi Chen, Jin Zhang, Xiaogui Yang, Xuan Gao, Haijun Lv, Zhihui Lu, Yicheng Zou, Qipeng Guo

分类: cs.CL

发布日期: 2026-03-13


💡 一句话要点

提出迭代干扰项构建(IDC)框架,提升RLVR中多选题的推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 可验证奖励 多选题 干扰项设计 奖励欺骗

📋 核心要点

  1. 现有方法在RLVR中使用多选题时,模型易通过随机猜测或简单排除法获得奖励,缺乏深度推理。
  2. 提出迭代干扰项构建(IDC)框架,通过主动构建高质量干扰项,阻止模型使用排除法,促进深度推理。
  3. 实验表明,IDC框架有效提升了干扰项质量,并在RLVR训练中取得了显著的性能提升。

📝 摘要(中文)

本研究针对基于可验证奖励的强化学习(RLVR)中,多选题(MCQ)易导致奖励欺骗的问题,系统性地研究了选项设计对RLVR的影响。分析表明,训练和测试选项数量不匹配会降低性能,而高质量的干扰项能有效抑制随机猜测,即使是二选一问题也能进行有效的RLVR训练。为此,我们提出了迭代干扰项构建(IDC)框架,主动构建高质量的干扰项,以阻止模型通过简单排除法获得奖励,从而促进深度推理。在多个基准测试上的实验表明,我们的方法有效地提高了干扰项的质量,并且与原始数据相比,在RLVR训练中获得了显著的性能提升。

🔬 方法详解

问题定义:论文旨在解决在基于可验证奖励的强化学习(RLVR)中使用多选题时,模型容易通过奖励欺骗(reward hacking)来获得高奖励的问题。现有的方法通常将多选题转换为开放式问题,但这样会丢失专家设计的干扰项所提供的对比信号。因此,如何设计高质量的多选题,使其既能提供可验证的奖励,又能避免奖励欺骗,是本研究要解决的核心问题。

核心思路:论文的核心思路是通过迭代地构建高质量的干扰项,来阻止模型通过简单的排除法或随机猜测来获得奖励。高质量的干扰项能够迫使模型进行更深入的推理,从而提高RLVR训练的效果。通过分析选项数量和干扰项强度对模型性能的影响,论文发现强干扰项可以有效缓解奖励欺骗问题。

技术框架:迭代干扰项构建(IDC)框架包含以下主要阶段:1) 初始干扰项生成:使用某种策略(例如,基于规则或基于模型)生成初始的干扰项集合。2) 干扰项评估:使用RLVR训练的模型评估每个干扰项的质量。评估指标可以是模型在包含该干扰项的多选题上的表现,例如,模型选择正确答案的概率。3) 干扰项选择与优化:根据评估结果,选择高质量的干扰项,并对这些干扰项进行优化。优化方法可以是基于梯度的方法,也可以是基于进化算法的方法。4) 迭代:重复步骤2和步骤3,直到干扰项的质量达到预定的标准。

关键创新:最重要的技术创新点是主动构建高质量干扰项的迭代过程。与现有方法不同,IDC框架不是简单地使用现有的多选题数据,而是通过迭代地评估和优化干扰项,来提高干扰项的质量。这种主动构建干扰项的方法可以更有效地阻止模型通过奖励欺骗来获得奖励,从而提高RLVR训练的效果。

关键设计:关键设计包括:1) 干扰项评估指标:如何准确地评估干扰项的质量是至关重要的。论文可能使用了诸如模型选择正确答案的概率、模型在干扰项上的困惑度等指标。2) 干扰项优化方法:如何有效地优化干扰项也是一个关键问题。论文可能使用了基于梯度的方法,例如,通过调整干扰项的词向量来提高其迷惑性。3) 迭代停止条件:如何确定迭代何时停止也是一个重要的设计选择。论文可能使用了诸如干扰项质量达到预定阈值、迭代次数达到上限等条件。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的IDC框架能够显著提升干扰项的质量,并提高RLVR训练的效果。具体来说,在多个基准测试上,使用IDC框架训练的RLVR模型在多选题上的准确率比使用原始数据训练的模型提高了X%。此外,实验还表明,即使是二选一问题,通过使用高质量的干扰项,也可以进行有效的RLVR训练。

🎯 应用场景

该研究成果可应用于提升大型语言模型在需要复杂推理的任务中的表现,例如问答系统、知识图谱推理、策略游戏等。通过构建高质量的多选题数据集,可以更有效地训练RLVR模型,使其具备更强的推理能力和泛化能力。此外,该方法还可以用于评估和改进现有的多选题数据集,提高其质量和难度。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) significantly enhances the reasoning capabilities of Large Language Models. When applied to RLVR, Multiple-Choice Questions (MCQs) offer a scalable source of verifiable data but risk inducing reward hacking, where models shortcut reasoning via random guessing or simple elimination. Current approaches often mitigate this by converting MCQs to open-ended formats, thereby discarding the contrastive signal provided by expert-designed distractors. In this work, we systematically investigate the impact of option design on RLVR. Our analysis highlights two primary insights: (1) Mismatches in option counts between training and testing degrade performance. (2) Strong distractors effectively mitigate random guessing, enabling effective RLVR training even with 2-way questions. Motivated by these findings, we propose Iterative Distractor Curation (IDC), a framework that actively constructs high-quality distractors to block elimination shortcuts and promote deep reasoning. Experiments on various benchmarks demonstrate that our method effectively enhances distractor quality and yields significant gains in RLVR training compared to the original data.