Prompt-Level Reward Specifications for Open-Ended Post-Training

📄 arXiv: 2605.29275v1 📥 PDF

作者: Zijun Weng, Xiaohui Hu, Shuangyong Song, Yongxiang Li, Kaidong Yu, Xuanjing Huang

分类: cs.CL

发布日期: 2026-05-28

备注: 39 pages, 4 figures, 16 tables


💡 一句话要点

提出Prompt级别奖励规范框架,用于开放式后训练,提升响应质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放式后训练 奖励规范 提示工程 强化学习 文本生成

📋 核心要点

  1. 现有奖励方法在开放式后训练中,难以明确表达局部需求、整体偏好和显式约束,导致响应质量受限。
  2. 提出Prompt级别奖励规范框架,离线构建任务自适应规则和硬约束检查器,显式化奖励标准并支持重用。
  3. 实验表明,该框架改进了离线响应排序,并支持在线强化学习,规则、全局评分和可执行验证提供互补监督。

📝 摘要(中文)

开放式后训练受益于明确提示特定成功条件的奖励,而非仅依赖事后标量分数。在指令跟随、写作和决策支持任务中,响应质量取决于局部需求、整体偏好和显式约束,但现有奖励方法通常隐含这些标准或仅涵盖狭窄的可验证案例。我们提出了一种提示级别奖励规范框架,该框架将奖励规范与奖励计算分离。仅给定提示,我们的框架即可离线构建可重用的任务自适应规则和可执行的硬约束检查器,从而在训练之前使奖励标准显式化,并在整个rollout过程中可重用。在评分时,artifact-anchored规则和代码分数与独立的全局分数相结合,以获得剩余的整体质量,从而产生一个归一化的混合奖励,涵盖需求满足、整体质量和确定性约束。该框架不需要人工偏好注释、参考答案或单独训练的奖励模型。实验表明,由此产生的奖励改进了离线RM风格的响应排序,并支持跨多个开放式基准的在线强化学习。消融实验进一步表明,规则、全局评分和可执行验证提供了互补的监督。

🔬 方法详解

问题定义:论文旨在解决开放式后训练中,现有奖励方法无法有效捕捉prompt中蕴含的局部需求、整体偏好和显式约束,导致模型生成的响应质量不高的问题。现有方法要么依赖隐式的奖励信号,要么只能处理狭窄的可验证的约束条件,缺乏对复杂prompt的细粒度理解和奖励机制。

核心思路:核心思路是将奖励规范与奖励计算分离。通过离线分析prompt,自动构建任务自适应的规则(rubrics)和可执行的硬约束检查器,从而在训练前明确奖励标准。在训练过程中,利用这些预定义的规则和约束来评估模型的响应,并结合全局评分,形成一个综合的奖励信号。

技术框架:该框架包含以下几个主要模块: 1. Prompt分析模块:负责解析输入的prompt,提取关键信息,例如任务类型、约束条件、期望的输出格式等。 2. 规则生成模块:基于prompt分析的结果,自动生成任务自适应的规则(rubrics),用于评估响应在特定方面的质量。 3. 约束检查模块:根据prompt中明确的约束条件,生成可执行的代码,用于验证响应是否满足这些硬性约束。 4. 全局评分模块:独立于规则和约束,对响应的整体质量进行评分,例如流畅性、相关性等。 5. 奖励计算模块:将规则评分、约束检查结果和全局评分进行加权组合,生成最终的奖励信号。

关键创新:最重要的创新点在于提出了prompt级别的奖励规范,使得奖励信号能够更加精细地反映prompt中的各种要求。与现有方法相比,该框架不需要人工标注的偏好数据或参考答案,也不需要单独训练奖励模型,降低了训练成本和复杂度。通过离线构建规则和约束,实现了奖励标准的可重用性,提高了训练效率。

关键设计: 1. 规则生成:使用大型语言模型(LLM)根据prompt自动生成rubrics,并使用少量数据进行微调。 2. 约束检查:将prompt中的约束条件转化为可执行的Python代码,确保响应满足硬性约束。 3. 奖励组合:使用加权平均的方式将规则评分、约束检查结果和全局评分进行组合,权重可以通过实验进行调整。 4. 归一化:对奖励信号进行归一化处理,确保奖励信号的稳定性和可比性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在离线RM风格的响应排序和在线强化学习中均取得了显著提升。消融实验证明,规则、全局评分和可执行验证提供了互补的监督信号,共同提升了模型的性能。具体而言,该方法在多个开放式基准测试中超越了现有方法,表明了其有效性和泛化能力。

🎯 应用场景

该研究成果可广泛应用于各种开放式文本生成任务,例如指令跟随、创意写作、对话生成和决策支持等。通过提供更精细和可解释的奖励信号,可以显著提升生成模型的性能和可控性。该框架无需人工标注数据,降低了应用成本,具有很高的实际应用价值。未来可以进一步探索如何自动学习奖励权重,以及如何将该框架应用于更复杂的任务场景。

📄 摘要(原文)

Open-ended post-training benefits from rewards that make prompt-specific success conditions explicit, rather than relying only on post-hoc scalar scores. In instruction following, writing, and decision-support tasks, response quality depends on local requirements, holistic preferences, and explicit constraints, but existing reward methods often leave these criteria implicit or cover only narrowly verifiable cases. We propose a prompt-level reward specification framework that separates reward specification from reward computation. Given only prompts, our framework constructs reusable task-adaptive rubrics and executable hard-constraint checkers offline, making reward criteria explicit before training and reusable across rollouts. At scoring time, artifact-anchored rubric and code scores are combined with an independent global score for residual holistic quality, yielding a normalized hybrid reward over requirement satisfaction, holistic quality, and deterministic constraints. The framework requires no human preference annotations, reference answers, or a separately trained reward model. Experiments show that the resulting reward improves offline RM-style response ranking and supports online reinforcement learning across multiple open-ended benchmarks. Ablations further show that rubrics, global scoring, and executable verification provide complementary supervision.