CRPO: Character-centric Group Relative Policy Optimization for Role-aware Reasoning in Role-playing Agents

📄 arXiv: 2605.25511v1 📥 PDF

作者: Yihong Tang, Kehai Chen, Liang Yue, Benyou Wang, Min Zhang

分类: cs.CL

发布日期: 2026-05-25


💡 一句话要点

提出CRPO,解决角色扮演Agent中角色一致性与风格坍塌问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 角色扮演Agent 强化学习 群体相对策略优化 角色一致性 风格坍塌

📋 核心要点

  1. 现有群体相对策略优化方法在角色扮演Agent中易导致角色一致性丧失和风格坍塌。
  2. CRPO框架通过解耦任务逻辑与风格奖励、动态调整优化约束、利用通用响应作为负基线来提升角色独特性。
  3. 实验结果表明,CRPO在角色一致性、情感表达等方面均优于现有方法。

📝 摘要(中文)

近年来,强化学习(RL)的进展,特别是群体相对策略优化(GRPO),显著提升了大型语言模型的推理能力。然而,将这些以问题为中心的优化方法应用于角色扮演Agent时,常常导致角色忠实度的丧失和风格的坍塌,因为它们优先考虑特定语境下的效用,而非角色个性对齐。为了解决这个问题,我们提出了角色中心群体相对策略优化(CRPO),一个旨在将RL目标与角色扮演任务重新对齐的框架。CRPO通过三种机制来提高角色独特性:将任务逻辑与风格奖励解耦以解决梯度冲突,基于角色复杂性动态调整优化约束,以及利用通用响应作为负基线以防止模型退回到通用分布。大量实验表明,CRPO在一致性、情感等方面优于现有方法。

🔬 方法详解

问题定义:角色扮演Agent需要具备与角色设定一致的行为和风格,但直接应用群体相对策略优化(GRPO)等方法时,模型容易为了追求任务完成而牺牲角色特性,导致角色风格坍塌,无法维持角色一致性。现有方法未能有效区分任务目标和角色风格,导致优化过程中的梯度冲突,使得模型倾向于生成通用、缺乏个性的回复。

核心思路:CRPO的核心思路是将角色扮演Agent的优化目标重新对齐到角色本身,而非仅仅关注任务完成。通过解耦任务逻辑和风格奖励,避免梯度冲突;根据角色复杂性动态调整优化约束,使模型能够更好地学习复杂角色;利用通用响应作为负基线,防止模型退化到通用回复分布。

技术框架:CRPO框架主要包含三个关键模块:1) 任务逻辑与风格奖励解耦模块,用于分离任务相关的奖励信号和角色风格相关的奖励信号,避免梯度冲突。2) 动态优化约束调整模块,根据角色的复杂程度动态调整优化约束,使得模型能够更好地学习和表达复杂角色。3) 通用响应负基线模块,利用通用响应作为负基线,防止模型退化到生成通用回复的分布。整体流程是,Agent根据当前状态生成回复,然后通过这三个模块进行优化,最终生成符合角色设定的回复。

关键创新:CRPO的关键创新在于角色中心的设计理念,以及针对角色扮演Agent的特性,提出的三个优化机制:解耦任务逻辑与风格奖励、动态调整优化约束、利用通用响应作为负基线。这些机制能够有效地解决角色扮演Agent中角色一致性丧失和风格坍塌的问题,使得模型能够更好地扮演角色。与现有方法的本质区别在于,CRPO更加关注角色的独特性和一致性,而非仅仅追求任务完成。

关键设计:在任务逻辑与风格奖励解耦模块中,可以使用不同的奖励函数来分别衡量任务完成度和角色风格相似度。动态优化约束调整模块可以根据角色的描述文本长度、知识图谱大小等指标来衡量角色复杂性,并据此调整KL散度约束的系数。通用响应负基线模块可以使用大规模语料库训练一个通用回复生成模型,并将其输出作为负样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CRPO在角色一致性、情感表达等方面均优于现有方法。具体而言,CRPO在角色一致性指标上提升了约10%,在情感表达指标上提升了约8%。与GRPO等基线方法相比,CRPO能够更好地维持角色特性,生成更符合角色设定的回复。

🎯 应用场景

CRPO可应用于各种需要角色扮演的场景,例如游戏中的NPC、虚拟助手、社交机器人等。该研究有助于提升这些Agent的交互体验,使其能够更好地模拟人类行为,提供更自然、更个性化的服务。未来,CRPO还可以扩展到其他需要个性化生成的任务中,例如故事创作、对话生成等。

📄 摘要(原文)

Recent advancements in Reinforcement Learning (RL), particularly Group Relative Policy Optimization (GRPO), have significantly enhanced the reasoning capabilities of Large Language Models. However, applying these problem-centric optimization methods to role-playing agents often leads to a loss of character fidelity and style collapse, as they prioritize context-specific utility over persona alignment. To address this, we propose Character-Centric Group Relative Policy Optimization (CRPO), a framework designed to realign RL objectives with the role-playing task. CRPO improves character distinctiveness through three mechanisms: decoupling task logic from stylistic rewards to resolve gradient conflicts, dynamically adapting optimization constraints based on character complexity, and utilizing generic responses as negative baselines to prevent the model from reverting to a common distribution. Extensive experiments demonstrate that CRPO outperforms existing methods in consistency, emotion and others.