Survive or Collapse: The Asymmetric Roles of Data Gating and Reward Grounding in Self-Play RL
作者: Sophia Xiao Pu, Zhaotian Weng, Chengzhi Liu, Jayanth Srinivasa, Gaowen Liu, William Yang Wang, Xin Eric Wang
分类: cs.LG, cs.CL
发布日期: 2026-05-21
💡 一句话要点
揭示自博弈强化学习中数据门控与奖励函数的不对称性,强调数据门控对稳定性的关键作用。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自博弈强化学习 数据门控 奖励函数 稳定性 语言模型
📋 核心要点
- 自博弈强化学习训练中存在崩溃和不稳定性问题,现有方法主要关注奖励函数设计,但效果有限。
- 论文提出数据门控和奖励函数在自博弈稳定性中扮演不对称角色,数据门控更为关键。
- 实验表明,严格的数据门控能保证稳定性,而奖励函数的调整无法弥补数据门控缺失带来的问题。
📝 摘要(中文)
自博弈强化学习在自身生成的任务上训练语言模型,共同进化一个提议者(proposer)和一个解决者(solver),无需人工标注。虽然最近的系统报告了强大的推理能力提升,但崩溃和不稳定性被广泛观察到,且原因尚不清楚。主流观点将其视为奖励设计问题。本文认为,自博弈的稳定性由两个不同的因素控制:一个数据层面的门控,决定哪些提议者生成的任务进入训练池;以及奖励信号,用于更新已接受任务的策略。通过在Python输出预测任务和一个确定性DSL双生任务上的受控实验,发现这两个因素是不对称的。严格的门控足以在所有测试的奖励变体下保持稳定性,包括一个无需访问真实标签的自洽性奖励;而一旦移除门控,任何奖励变体都不足以保持稳定性。这种不对称性揭示了一种反直觉的耦合,称为“有根据的提议者悖论”:当与自洽性解决者配对时,一个具有真实标签访问权限的提议者比一个没有真实标签访问权限的提议者更快地加速崩溃,因为它将训练集中在干净的任务上,而这些任务形成了通往虚假自洽吸引子的最快路径。用连续严格性参数ε替换二元门控进一步揭示了一个两阶段相变:训练侧指标在低ε时解耦,而验证精度保持到ε更高时才下降。数据层面的门控,而不是奖励校准,是自博弈稳定性的约束。
🔬 方法详解
问题定义:自博弈强化学习旨在通过让模型在自身生成的任务上进行训练,从而提升模型的推理能力。然而,这种训练方式常常面临崩溃和不稳定性问题,即模型性能在训练过程中突然下降。现有方法主要集中在设计更有效的奖励函数,希望通过更精确的奖励信号来引导模型的学习,但这些方法并不能完全解决稳定性问题。
核心思路:论文的核心思路是认为自博弈的稳定性不仅仅取决于奖励函数的设计,更重要的是数据质量的控制。具体来说,论文强调了数据门控(data gating)的作用,即通过一个门控机制来筛选进入训练池的任务。论文认为,即使使用简单的奖励函数,只要有严格的数据门控,就能保证自博弈的稳定性。
技术框架:论文通过受控实验来验证其观点。实验设置包括一个Python输出预测任务和一个确定性DSL双生任务。在这些任务中,研究人员可以精确地控制提议者(proposer)和解决者(solver)的行为,以及数据门控和奖励函数的设置。实验流程大致如下:1) 提议者生成任务;2) 数据门控根据某种策略决定是否将任务加入训练集;3) 解决者在训练集上进行训练,并根据奖励函数更新策略。
关键创新:论文最重要的创新点在于揭示了数据门控和奖励函数在自博弈稳定性中的不对称性。以往的研究主要关注奖励函数的设计,而忽略了数据质量的重要性。论文通过实验证明,数据门控比奖励函数更重要,是保证自博弈稳定性的关键因素。此外,论文还提出了“有根据的提议者悖论”,即当提议者能够访问真实标签时,反而可能加速崩溃,因为提议者会生成大量简单的、容易自洽的任务,导致模型陷入虚假的自洽吸引子。
关键设计:论文的关键设计包括:1) 数据门控机制,可以使用二元门控(严格接受或拒绝任务)或连续门控(使用参数ε控制接受任务的严格程度);2) 多种奖励函数,包括基于真实标签的奖励和基于自洽性的奖励;3) 确定性DSL双生任务,该任务消除了预训练先验、输出歧义和执行器噪声,使得研究人员可以更清晰地观察到数据门控和奖励函数的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在所有测试的奖励变体下,严格的数据门控足以保证自博弈的稳定性,即使使用无需访问真实标签的自洽性奖励。相反,一旦移除数据门控,任何奖励变体都无法保证稳定性。此外,通过使用连续严格性参数ε,研究人员观察到两阶段相变:训练侧指标在低ε时解耦,而验证精度保持到ε更高时才下降,进一步验证了数据门控的重要性。
🎯 应用场景
该研究成果对自博弈强化学习在语言模型训练、代码生成等领域的应用具有重要指导意义。通过合理的数据门控策略,可以有效避免训练过程中的崩溃和不稳定性问题,从而提升模型的性能和泛化能力。未来的研究可以进一步探索更有效的数据门控方法,以及如何将数据门控与奖励函数设计相结合,以实现更稳定的自博弈训练。
📄 摘要(原文)
Self-play reinforcement learning trains language models on their own generated tasks, co-evolving a proposer and solver without human labels. Recent systems report strong reasoning gains, but collapse and instability are widely observed and poorly understood. The dominant response treats this as a reward-design problem. We argue instead that self-play stability is governed by two distinct levers: a data-level gate that decides which proposer-generated tasks enter the training pool, and the reward signal that updates the policy on tasks already admitted. Through controlled experiments on a Python output-prediction task and a deterministic-DSL twin task that strips pretraining priors, output ambiguity, and executor noise, we find the two levers are asymmetric. A strict gate is sufficient for stability under every reward variant we test, including a self-consistency reward with no access to ground truth; while no reward variant is sufficient once the gate is removed. This asymmetry exposes a counter-intuitive coupling we call the Grounded Proposer Paradox: a proposer with ground-truth access accelerates collapse faster than an ungrounded one when paired with a self-consistency solver, by concentrating training on clean tasks that form the fastest path to a spurious self-consistent attractor. Replacing the binary gate with a continuous strictness parameter $\varepsilon$ further reveals a two-stage phase transition: training-side metrics decouple at low $\varepsilon$, while validation accuracy holds until $\varepsilon$ is much higher. Data-level gating, not reward calibration, is the binding constraint on self-play stability.