Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards

📄 arXiv: 2506.00103v2 📥 PDF

作者: Ruipeng Jia, Yunyi Yang, Yongbo Gai, Kai Luo, Shihao Huang, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang

分类: cs.CL

发布日期: 2025-05-30 (更新: 2025-06-11)


💡 一句话要点

提出Writing-Zero,弥合非验证任务与可验证奖励之间的差距,提升LLM写作能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 可验证奖励 语言模型 创意写作 奖励模型 策略优化 非验证任务

📋 核心要点

  1. 现有方法在创意写作等非验证任务中,依赖人工偏好训练的标量奖励模型,泛化能力有限且易受奖励黑客攻击。
  2. 提出基于写作原则的成对生成奖励模型(GenRM)和自举相对策略优化(BRPO)算法,将主观评估转化为可验证奖励。
  3. Writing-Zero在无监督微调下,写作能力持续提升,且对奖励黑客攻击有更强的抵抗力,并在写作基准测试中表现出色。

📝 摘要(中文)

本文提出了一种统一的基于可验证奖励的强化学习(RLVR)训练范式,旨在弥合非验证任务(如创意写作和开放式对话)与可验证奖励之间的差距。针对这些领域质量评估的主观性和缺乏明确参考的问题,本文引入了一种基于写作原则的成对生成奖励模型(GenRM)和一个新颖的自举相对策略优化(BRPO)算法。成对写作GenRM利用自我原则的评论将主观评估转化为可靠的可验证奖励,而BRPO通过利用自举响应作为RL训练期间组内rollout的临时参考,实现动态的、无参考的成对比较。实验结果表明,Writing-Zero无需监督微调即可发展出强大的写作能力,并且相比于标量奖励基线,具有持续的改进和对奖励黑客的强大抵抗力。该方法在内部和开源写作基准测试中均取得了有竞争力的结果。研究结果表明,有可能在RLVR框架下统一基于规则、基于参考和无参考的奖励建模,从而为适用于所有语言任务的全面且可扩展的RL训练范式铺平道路。

🔬 方法详解

问题定义:现有方法在处理创意写作等非验证任务时,依赖于人工标注的偏好数据训练标量奖励模型。这些模型泛化能力差,容易被奖励黑客攻击,例如过度解释和长度偏见。因此,如何为LLM在非验证任务中提供可靠的奖励信号是一个关键问题。

核心思路:本文的核心思路是将主观的写作质量评估转化为可验证的奖励信号。通过引入基于写作原则的成对生成奖励模型(GenRM),模型可以根据预定义的写作原则对生成的文本进行自我评估,从而将主观的质量判断转化为客观的、可验证的奖励。同时,利用自举相对策略优化(BRPO)算法,在训练过程中动态生成参考文本,避免了对外部参考的依赖。

技术框架:整个训练框架基于强化学习,主要包含以下几个模块:1) 语言模型(LLM):作为策略模型,负责生成文本。2) 成对生成奖励模型(GenRM):根据写作原则对生成的文本进行评估,生成奖励信号。3) 自举相对策略优化(BRPO):利用GenRM提供的奖励信号,优化语言模型的策略。在训练过程中,LLM生成文本,GenRM对文本进行评估,BRPO根据评估结果更新LLM的参数。

关键创新:本文的关键创新在于:1) 提出了基于写作原则的成对生成奖励模型(GenRM),将主观的写作质量评估转化为可验证的奖励信号。2) 提出了自举相对策略优化(BRPO)算法,通过动态生成参考文本,避免了对外部参考的依赖,使得模型可以在没有人工标注的情况下进行训练。

关键设计:GenRM的设计基于预定义的写作原则,例如清晰度、逻辑性、创造性等。模型通过比较两个文本在这些原则上的表现,生成成对的奖励信号。BRPO算法的关键在于如何生成高质量的参考文本。本文采用自举的方法,从同一批生成的文本中选择一个作为参考,并通过一定的策略保证参考文本的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Writing-Zero在写作任务上表现出显著的性能提升,且对奖励黑客攻击具有更强的抵抗力。实验结果表明,Writing-Zero在内部和开源写作基准测试中均取得了有竞争力的结果,证明了该方法在提升LLM写作能力方面的有效性。与标量奖励基线相比,Writing-Zero能够生成更高质量、更具创造性的文本。

🎯 应用场景

该研究成果可广泛应用于各种需要高质量文本生成的场景,例如创意写作、故事创作、剧本生成、对话系统等。通过可验证奖励的强化学习,可以提升LLM在这些领域的生成质量和创造性,并减少对人工标注数据的依赖。未来,该方法有望扩展到其他非验证任务,例如图像生成、音乐创作等,实现更广泛的应用。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has enabled large language models (LLMs) to achieve remarkable breakthroughs in reasoning tasks with objective ground-truth answers, such as mathematics and code generation. However, a significant gap remains for non-verifiable tasks, like creative writing and open-ended dialogue, where quality assessment is inherently subjective and lacks definitive references. Existing approaches for these domains often rely on scalar reward models trained with human preferences, which suffer from limited generalization and are prone to reward hacking, such as over-explanation and length bias. In this work, we propose a unified RLVR-based training paradigm that bridges the gap between non-verifiable tasks and verifiable rewards. We introduce a writing-principle-based pairwise Generative Reward Model (GenRM) and a novel Bootstrapped Relative Policy Optimization (BRPO) algorithm. The pairwise writing GenRM leverages self-principled critique to transform subjective assessments into reliable, verifiable rewards, while BRPO enables dynamic, reference-free pairwise comparison by leveraging a bootstrapped response as temporary reference from within group rollouts during RL training. Our approach empowers LLMs to develop robust writing capabilities without supervised fine-tuning, as demonstrated by Writing-Zero, which shows consistent improvement and strong resistance to reward hacking compared to scalar reward baselines. Furthermore, our method achieves competitive results on both in-house and open-source writing benchmarks. Our findings suggest the potential to unify rule-based, reference-based, and reference-free reward modeling under the RLVR framework, thus paving the way for a comprehensive and scalable RL training paradigm applicable across all language tasks.