Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing
作者: Pei-Xi Xie, Che-Yu Lin, Cheng-Lin Yang
分类: cs.AI, cs.CL, cs.LG
发布日期: 2026-04-09
💡 一句话要点
提出DAHS和BHA,缓解数学RLVR中分布锐化问题,提升解题覆盖率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 可验证奖励 提示学习 分布对齐 反向退火
📋 核心要点
- 数学RLVR在提高低$k$准确率的同时,面临解题覆盖率下降和pass@1增益无法转化为大$k$性能的挑战。
- 论文提出分布对齐提示合成(DAHS)和反向提示退火(BHA),解决教师-学生分布不匹配和提示暴露过度的问题。
- 实验表明,该方法在$ exttt{Qwen3-1.7B-Base}$和$ exttt{Llama-3.2-1B-Instruct}$上均能有效提升pass@1和pass@2048指标。
📝 摘要(中文)
可验证奖励强化学习(RLVR)能提高低$k$推理准确率,但会缩小难题的解题覆盖率,且pass@1的提升不一定转化为更好的大$k$性能。现有的基于提示的方法能使难题可训练,但忽略了教师-学生分布不匹配以及减少提示暴露以匹配无提示评估的需求。本文通过两个组件解决这些问题:分布对齐提示合成(DAHS)构建以学生风格响应为条件的验证教师提示;反向提示退火(BHA)在难度桶上退火提示暴露,并使用每个问题的提示dropout来在整个RL训练中保留无提示更新。在AIME24、AIME25和AIME26上,使用$ exttt{Qwen3-1.7B-Base}$和$ exttt{Llama-3.2-1B-Instruct}$在DAPO训练框架下评估该方法。在$ exttt{Qwen3-1.7B-Base}$上,相对于DAPO,该方法提高了三个AIME基准测试的pass@1和pass@2048。在$ exttt{Llama-3.2-1B-Instruct}$上,增益集中在大$k$区域。这些结果表明,在数学RLVR中,提示支架在训练早期恢复难题的可学习更新,并在无提示评估之前逐渐移除时是有效的。
🔬 方法详解
问题定义:数学RLVR旨在通过强化学习训练模型解决数学问题,但现有方法在提高低$k$准确率的同时,往往会牺牲解题覆盖率,并且pass@1的提升并不一定能转化为大$k$时的性能提升。此外,使用提示学习时,教师-学生分布不匹配以及提示暴露过度也会影响模型性能。
核心思路:论文的核心思路是通过分布对齐的提示合成,缓解教师-学生分布不匹配问题,并使用反向提示退火策略,逐步减少提示的暴露,从而使模型在训练过程中既能利用提示学习,又能在无提示评估时表现良好。这样设计的目的是为了在保证模型学习效率的同时,提高其泛化能力。
技术框架:整体框架基于DAPO训练框架,主要包含两个核心模块:分布对齐提示合成(DAHS)和反向提示退火(BHA)。DAHS模块负责生成与学生模型输出分布对齐的教师提示,BHA模块则负责在训练过程中逐步减少提示的暴露。整个流程包括:1) 学生模型生成答案;2) DAHS生成对齐的教师提示;3) 使用提示进行训练;4) BHA逐步退火提示,并使用dropout保留无提示更新。
关键创新:论文的关键创新在于DAHS和BHA的结合使用。DAHS通过生成与学生模型输出分布对齐的提示,有效缓解了教师-学生分布不匹配的问题。BHA则通过反向退火提示,使模型在训练初期能够充分利用提示学习,并在训练后期逐步适应无提示环境,从而提高了模型的泛化能力。
关键设计:DAHS的关键设计在于如何生成与学生模型输出分布对齐的提示。具体实现方式未知,可能涉及对抗训练或领域自适应等技术。BHA的关键设计在于如何确定提示退火的策略和dropout的概率。论文提到在难度桶上退火提示暴露,并使用每个问题的提示dropout,但具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在$ exttt{Qwen3-1.7B-Base}$上,该方法相对于DAPO,提高了三个AIME基准测试的pass@1和pass@2048。在$ exttt{Llama-3.2-1B-Instruct}$上,增益主要集中在大$k$区域,表明该方法尤其擅长提升模型在高难度问题上的表现。这些结果验证了DAHS和BHA在缓解分布锐化问题上的有效性。
🎯 应用场景
该研究成果可应用于各种需要强化学习和提示学习的数学问题求解场景,例如自动解题机器人、在线教育平台等。通过提高模型的解题准确率和覆盖率,可以为用户提供更优质的数学学习体验,并推动人工智能在数学教育领域的应用。
📄 摘要(原文)
Reinforcement learning with verifiable rewards (RLVR) can improve low-$k$ reasoning accuracy while narrowing solution coverage on challenging math questions, and pass@1 gains do not necessarily translate into better large-$k$ performance. Existing hint-based approaches can make challenging questions trainable, but they leave two issues underexplored: teacher-student distribution mismatch and the need to reduce hint exposure to match no-hint evaluation. We address these issues through two components. Distribution-Aligned Hint Synthesis (DAHS) constructs verified teacher hints conditioned on student-style responses. Backward Hint Annealing (BHA) anneals hint exposure across difficulty buckets and uses per-question hint dropout to preserve no-hint updates throughout RL training. We evaluate the method in math RLVR under the DAPO training framework across AIME24, AIME25, and AIME26 using $\texttt{Qwen3-1.7B-Base}$ and $\texttt{Llama-3.2-1B-Instruct}$. On $\texttt{Qwen3-1.7B-Base}$, our method improves both pass@1 and pass@2048 relative to DAPO across the three AIME benchmarks. On $\texttt{Llama-3.2-1B-Instruct}$, the gains are concentrated in the large-$k$ regime. These results suggest that, in math RLVR, hint scaffolding is effective when it restores learnable updates on challenging questions early in training and is then gradually removed before no-hint evaluation.