PerMix-RLVR: Preserving Persona Expressivity under Verifiable-Reward Alignment
作者: Jihwan Oh, Soowon Oh, Murad Aghazada, Minchan Jeong, Sungnyun Kim, Se-Young Yun
分类: cs.CL, cs.AI
发布日期: 2026-04-10
备注: Preprint
💡 一句话要点
PerMix-RLVR:在可验证奖励对齐下保持角色表达能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 角色提示 强化学习 可验证奖励 角色鲁棒性 角色保真度 大型语言模型 PersonaGym MATH500
📋 核心要点
- 现有方法在推理时搜索最优角色提示,计算成本高昂,且对角色提示影响理解不足。
- PerMix-RLVR通过在训练时解决角色敏感性,使模型适应不同角色并保持任务性能。
- 实验表明,PerMix-RLVR在提升角色稳定性的同时,也增强了角色扮演的保真度。
📝 摘要(中文)
角色提示已被广泛用于引导大型语言模型(LLM)的行为,并通过分配特定角色来提高其指令性能。然而,确定最佳角色既耗时,而且其对输出质量的影响仍然知之甚少。先前的工作主要通过推理时策略在提示级别解决此问题,从而导致额外的计算。在这项工作中,我们通过在训练期间解决角色敏感性来避免推理时提示搜索,旨在训练能够使其行为适应不同角色同时保持任务性能的模型。特别地,我们发现具有可验证奖励的强化学习(RLVR)系统地降低了对角色提示的敏感性,但也揭示了基于结果的优化的固有权衡:虽然RLVR提高了具有可验证目标的任务的鲁棒性,但它也会降低所需的角色表达能力,例如,角色扮演。为了解决这个限制,我们提出了PerMix-RLVR,一种角色混合的RLVR策略,它减轻了角色鲁棒性-保真度的权衡,在需要时保持对有害角色变化的强大鲁棒性,同时实现忠实的角色采纳。具体而言,PerMix-RLVR在MATH500上将角色稳定性得分(PSS)比RLVR提高了+21.2%,同时在PersonaGym上将角色保真度提高了+11.4%。
🔬 方法详解
问题定义:论文旨在解决大型语言模型对角色提示的敏感性问题。现有方法主要集中在推理阶段的提示搜索,计算成本高,且未能充分理解角色提示对输出质量的影响。此外,使用可验证奖励的强化学习(RLVR)虽然能提高模型对有害角色提示的鲁棒性,但会降低模型在需要角色扮演时的表达能力,即存在鲁棒性与保真度的权衡。
核心思路:论文的核心思路是通过在训练阶段混合不同的角色提示,来训练对角色不敏感但又能有效利用角色信息的模型。通过这种方式,模型可以在保持任务性能的同时,更好地适应不同的角色,并减轻鲁棒性与保真度之间的权衡。
技术框架:PerMix-RLVR 的整体框架基于强化学习与可验证奖励(RLVR)。它在RLVR的基础上引入了角色混合(Persona-Mixed)机制。具体流程包括:首先,使用不同的角色提示生成训练数据;然后,使用RLVR训练模型,同时混合不同的角色提示,以提高模型的角色鲁棒性;最后,评估模型在不同角色下的性能,包括角色稳定性和角色保真度。
关键创新:PerMix-RLVR 的关键创新在于角色混合的训练策略。与传统的RLVR方法不同,PerMix-RLVR 在训练过程中混合了不同的角色提示,从而使模型能够更好地适应不同的角色,并减轻鲁棒性与保真度之间的权衡。这种方法避免了推理时的提示搜索,降低了计算成本,并提高了模型的泛化能力。
关键设计:PerMix-RLVR 的关键设计包括:1) 角色混合策略:如何选择和混合不同的角色提示,以最大程度地提高模型的角色鲁棒性和保真度。2) 奖励函数设计:如何设计可验证的奖励函数,以确保模型在保持任务性能的同时,能够更好地适应不同的角色。3) 损失函数设计:如何设计损失函数,以平衡角色鲁棒性和角色保真度之间的权衡。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PerMix-RLVR 在 MATH500 数据集上将角色稳定性得分(PSS)比 RLVR 提高了 +21.2%,同时在 PersonaGym 数据集上将角色保真度提高了 +11.4%。这些结果表明,PerMix-RLVR 能够有效地减轻角色鲁棒性与保真度之间的权衡,提高模型在不同角色下的性能。
🎯 应用场景
该研究成果可应用于各种需要角色扮演或个性化输出的场景,例如智能客服、虚拟助手、游戏AI等。通过提高模型对角色提示的鲁棒性和保真度,可以生成更自然、更符合用户期望的文本,提升用户体验。此外,该方法还可以用于提高模型在对抗性环境下的安全性,例如防止模型被恶意角色提示引导生成有害内容。
📄 摘要(原文)
Persona prompting has been widely adopted to steer large language models (LLMs) behavior and improve their instruction performance by assigning specific characters. However, identifying an optimal persona is time-consuming, and its impact on output quality remains poorly understood. Prior work has mainly addressed this issue at the prompt level via inference-time strategies, incurring additional computation. In this work, we avoid inference-time prompt search by tackling persona sensitivity during training, aiming to train models that adapt their behavior to diverse personas while preserving task performance. In particular, we find that reinforcement learning with verifiable rewards (RLVR) systematically reduces sensitivity to persona prompts, but also reveals an inherent trade-off of outcome-based optimization: while RLVR improves robustness on tasks with verifiable goals, it can also degrade persona expressivity when needed, e.g., in-character role-playing. To address this limitation, we propose PerMix-RLVR, a persona-mixed RLVR strategy that mitigates the persona robustness-fidelity trade-off, preserving strong robustness to harmful persona variation while enabling faithful persona adoption when required. Concretely, PerMix-RLVR improves persona stability score (PSS) over RLVR by +21.2% on MATH500, while also enhancing persona fidelity by +11.4% on PersonaGym.