UniCreative: Unifying Long-form Logic and Short-form Sparkle via Reference-Free Reinforcement Learning
作者: Xiaolong Wei, Zerun Zhu, Simin Niu, Xingyu Zhang, Peiying Yu, Changxuan Xiao, Yuchen Li, Jicheng Yang, Zhejun Zhao, Chong Meng, Long Xia, Daiting Shi
分类: cs.AI
发布日期: 2026-04-07
备注: Accepted to Findings of ACL 2026
💡 一句话要点
UniCreative:提出一种无参考强化学习框架,统一长文本逻辑性和短文本创造性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 创造性写作 强化学习 无参考学习 奖励模型 策略优化
📋 核心要点
- 现有创造性写作方法难以兼顾长文本的全局连贯性和短文本的局部表达性,且依赖大量有监督数据。
- UniCreative提出一种无参考强化学习框架,通过自适应约束感知的奖励模型和策略优化算法,实现模型与人类偏好对齐。
- 实验表明,该方法在各种写作任务中显著提升性能,并展现出区分不同任务类型所需的元认知能力。
📝 摘要(中文)
创造性写作的一个根本挑战在于协调长篇叙事的全局连贯性和短篇文本的局部表达性之间的内在张力。长文本生成需要显式的宏观规划,而短文本创造性通常需要自发的、无约束的表达。现有的对齐范式通常采用静态奖励信号,并严重依赖高质量的监督数据,这既昂贵又难以扩展。为了解决这个问题,我们提出了UniCreative,一个统一的无参考强化学习框架。我们首先引入AC-GenRM,一个自适应的、约束感知的奖励模型,它动态地合成特定于查询的标准,以提供细粒度的偏好判断。利用这些信号,我们提出了ACPO,一种策略优化算法,该算法使模型在内容质量和结构范式上与人类偏好对齐,而无需监督微调和真实参考。实验结果表明,AC-GenRM与专家评估紧密对齐,而ACPO显著提高了各种写作任务的性能。重要的是,我们的分析揭示了一种新兴的元认知能力:该模型学会自主区分需要严格规划的任务和那些倾向于直接生成的任务,从而验证了我们直接对齐方法的有效性。
🔬 方法详解
问题定义:现有创造性写作模型难以平衡长文本的逻辑连贯性和短文本的表达创造性。长文本生成需要全局规划,而短文本创作则强调自由表达。此外,现有方法通常依赖于静态奖励信号和大量高质量的监督数据,导致成本高昂且难以扩展。
核心思路:UniCreative的核心思路是利用无参考强化学习,通过动态生成的奖励信号来引导模型学习。它旨在让模型自主学习区分需要严格规划的任务和更适合直接生成的任务,从而在长文本和短文本创作中都能表现出色。这种方法避免了对大量人工标注数据的依赖,并允许模型根据任务的特性进行自适应调整。
技术框架:UniCreative框架主要包含两个核心模块:AC-GenRM(自适应约束感知奖励模型)和ACPO(自适应约束策略优化)。AC-GenRM负责动态生成针对特定查询的奖励信号,这些信号能够反映人类对内容质量和结构的偏好。ACPO则利用这些奖励信号,通过强化学习算法来优化生成模型的策略,使其能够更好地满足人类的偏好。整个流程无需监督微调和真实参考,实现了端到端的训练。
关键创新:UniCreative的关键创新在于其无参考强化学习的方法和自适应约束感知的奖励模型。传统的强化学习方法通常需要预定义的奖励函数或人工标注的参考答案,而UniCreative通过AC-GenRM动态生成奖励信号,避免了对这些资源的依赖。此外,AC-GenRM能够根据不同的任务动态调整约束条件,从而更好地适应长文本和短文本创作的不同需求。
关键设计:AC-GenRM通过一个预训练的语言模型来生成奖励信号,该模型被训练成能够区分高质量和低质量的文本。ACPO采用了一种基于信任区域的策略优化算法,以确保在优化过程中策略不会发生剧烈变化。此外,该框架还引入了一种自适应的约束机制,允许模型根据任务的特性动态调整约束条件。具体的参数设置、损失函数和网络结构等细节在论文中有更详细的描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,UniCreative框架中的AC-GenRM能够与人类专家的评估结果高度一致,表明其能够准确捕捉人类的偏好。ACPO算法在各种写作任务中都取得了显著的性能提升,尤其是在长文本生成方面,相比于基线模型,在流畅性和连贯性方面都有明显改善。此外,该模型还展现出一种新兴的元认知能力,能够自主区分需要严格规划的任务和更适合直接生成的任务。
🎯 应用场景
UniCreative具有广泛的应用前景,可用于自动故事生成、诗歌创作、广告文案撰写等多种创造性写作任务。该研究成果有助于降低创意内容生成的成本,提高生成内容的质量和多样性,并为个性化内容推荐和智能写作助手等应用提供技术支持。未来,该方法有望应用于更复杂的创意任务,例如剧本创作和游戏剧情设计。
📄 摘要(原文)
A fundamental challenge in creative writing lies in reconciling the inherent tension between maintaining global coherence in long-form narratives and preserving local expressiveness in short-form texts. While long-context generation necessitates explicit macroscopic planning, short-form creativity often demands spontaneous, constraint-free expression. Existing alignment paradigms, however, typically employ static reward signals and rely heavily on high-quality supervised data, which is costly and difficult to scale. To address this, we propose \textbf{UniCreative}, a unified reference-free reinforcement learning framework. We first introduce \textbf{AC-GenRM}, an adaptive constraint-aware reward model that dynamically synthesizes query-specific criteria to provide fine-grained preference judgments. Leveraging these signals, we propose \textbf{ACPO}, a policy optimization algorithm that aligns models with human preferences across both content quality and structural paradigms without supervised fine-tuning and ground-truth references. Empirical results demonstrate that AC-GenRM aligns closely with expert evaluations, while ACPO significantly enhances performance across diverse writing tasks. Crucially, our analysis reveals an emergent meta-cognitive ability: the model learns to autonomously differentiate between tasks requiring rigorous planning and those favoring direct generation, validating the effectiveness of our direct alignment approach.