RHyVE: Competence-Aware Verification and Phase-Aware Deployment for LLM-Generated Reward Hypotheses

📄 arXiv: 2604.28056v1 📥 PDF

作者: Feiyu Wu, Xu Zheng, Zhuocheng Wang, Yi ming Dai, Hui Li

分类: cs.AI

发布日期: 2026-04-30


💡 一句话要点

RHyVE:针对LLM生成奖励假设,提出能力感知验证和阶段感知部署方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 奖励函数设计 大型语言模型 能力感知 阶段感知 奖励假设验证 部署策略

📋 核心要点

  1. 现有方法忽略了LLM生成奖励的可靠性问题,以及策略能力和训练阶段对奖励效用的影响。
  2. RHyVE通过能力感知验证和阶段感知部署,在策略优化过程中动态选择和部署奖励假设。
  3. 实验表明,RHyVE能有效提高稀疏操作任务的性能,并揭示了LLM生成奖励候选的阶段依赖性。

📝 摘要(中文)

大型语言模型(LLM)显著提升了强化学习中奖励设计的可扩展性,但生成的奖励并非总是可靠的训练目标。现有工作主要关注生成、演化或选择奖励候选,较少关注在策略优化过程中何时验证和部署这些候选。本文将生成的奖励视为奖励假设,其效用取决于当前策略的能力和训练阶段,从而研究了部署时的问题。我们提出了RHyVE,一种能力感知验证和阶段感知部署协议,它使用短视界分支验证比较来自共享策略检查点的小型奖励假设集。实验表明,奖励排名在低能力时不可靠,但在达到任务相关阈值后变得有意义。在一个稀疏操作任务中,阶段感知部署提高了锁定协议下的峰值和保留性能。更新的LLM生成奖励候选实验显示了候选家族相关的行为:生成的池可以表现出阶段相关的胜者变化,但没有固定的预热时间表是普遍最优的。留出时间表选择、保守选择器基线、计算匹配控制和规模控制进一步表明,RHyVE最好被理解为一种验证知情的部署协议,而不是一种通用的调度器。密集和全失败边界实验划定了该方法的范围。总之,这些结果表明,奖励生成和奖励部署应作为耦合问题进行研究:生成的奖励必须在不断变化的策略能力下进行验证和部署。

🔬 方法详解

问题定义:现有方法在利用大型语言模型(LLM)生成奖励函数时,往往忽略了奖励函数本身的可靠性问题。生成的奖励函数可能并不总是与期望的行为对齐,并且其有效性会受到当前策略能力和训练阶段的影响。简单地使用LLM生成的奖励函数进行训练,可能会导致性能下降甚至失败。

核心思路:RHyVE的核心思路是将LLM生成的奖励函数视为“奖励假设”,并根据当前策略的能力和训练阶段,动态地验证和部署这些假设。通过短视界分支验证,评估不同奖励假设在当前策略下的表现,并选择最合适的奖励函数进行训练。这种方法能够适应策略能力的提升和训练阶段的变化,从而提高训练的稳定性和效率。

技术框架:RHyVE包含以下主要阶段:1) 奖励假设生成:使用LLM生成多个奖励函数候选。2) 策略检查点:在训练过程中定期保存策略检查点。3) 短视界分支验证:从每个策略检查点出发,使用不同的奖励假设进行短时间的训练(fork)。4) 奖励假设评估:根据短视界训练的结果,评估每个奖励假设的性能。5) 阶段感知部署:根据当前策略的能力和训练阶段,选择最佳的奖励假设进行部署和训练。

关键创新:RHyVE的关键创新在于其能力感知验证和阶段感知部署机制。它不是简单地选择一个固定的奖励函数进行训练,而是根据当前策略的能力和训练阶段,动态地选择和部署奖励假设。这种方法能够更好地适应策略能力的提升和训练阶段的变化,从而提高训练的稳定性和效率。与现有方法相比,RHyVE更加关注奖励函数在部署时的有效性,并提供了一种动态选择和部署奖励函数的策略。

关键设计:RHyVE的关键设计包括:1) 短视界分支验证:使用较短的训练时间来评估奖励假设的性能,从而降低计算成本。2) 能力感知验证:根据当前策略的性能来调整奖励假设的评估标准。3) 阶段感知部署:根据训练阶段的不同,选择不同的奖励假设进行部署。具体的参数设置包括短视界训练的长度、奖励假设评估的指标、以及阶段切换的阈值等。这些参数需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RHyVE在稀疏操作任务中能够显著提高性能。在锁定协议下,RHyVE的阶段感知部署策略能够提高峰值和保留性能。此外,实验还揭示了LLM生成奖励候选的阶段依赖性,表明没有固定的预热时间表是普遍最优的。与保守选择器基线和计算匹配控制相比,RHyVE表现出更优的性能,验证了其作为验证知情部署协议的有效性。

🎯 应用场景

RHyVE可应用于各种强化学习任务中,尤其是在奖励函数难以手动设计或需要利用LLM生成奖励函数的场景下。例如,机器人操作、游戏AI、自动驾驶等领域。通过RHyVE,可以更有效地利用LLM生成奖励函数,提高强化学习的效率和性能,并降低人工设计的成本。未来,RHyVE可以扩展到更复杂的任务和环境,并与其他强化学习算法相结合,进一步提升其性能和适用性。

📄 摘要(原文)

Large language models (LLMs) make reward design in reinforcement learning substantially more scalable, but generated rewards are not automatically reliable training objectives. Existing work has focused primarily on generating, evolving, or selecting reward candidates, while paying less attention to when such candidates can be verified and deployed during policy optimization. We study this deployment-time problem by treating generated rewards as reward hypotheses whose utility depends on the competence of the current policy and the phase of training. We propose \textsc{RHyVE}, a competence-aware verification and phase-aware deployment protocol that compares small sets of reward hypotheses from shared policy checkpoints using short-horizon fork verification. Our experiments show that reward rankings are unreliable at low competence but become informative after task-dependent thresholds. On a sparse manipulation task, phase-aware deployment improves peak and retained performance under a locked protocol. Updated LLM-generated reward-candidate experiments show candidate-family-dependent behavior: generated pools can exhibit phase-dependent winner changes, but no fixed warm-up schedule is universally optimal. Held-out schedule selection, conservative selector baselines, compute-matched controls, and scale controls further show that \textsc{RHyVE} is best understood as a verification-informed deployment protocol rather than a universal scheduler. Dense and all-failure boundary experiments delimit the scope of the method. Together, these results suggest that reward generation and reward deployment should be studied as coupled problems: generated rewards must be verified and deployed under changing policy competence.