CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards

📄 arXiv: 2507.17147v1 📥 PDF

作者: Cheng Liu, Yifei Lu, Fanghua Ye, Jian Li, Xingyu Chen, Feiliang Ren, Zhaopeng Tu, Xiaolong Li

分类: cs.CL

发布日期: 2025-07-23


💡 一句话要点

提出CogDual,通过强化学习和隐式规则奖励增强LLM的角色扮演双重认知能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 角色扮演语言智能体 双重认知 强化学习 情境感知 自我感知 大型语言模型 认知心理学

📋 核心要点

  1. 现有角色扮演语言智能体(RPLA)方法忽略了驱动角色行为的深层认知机制,导致角色一致性和上下文对齐不足。
  2. CogDual通过联合建模外部情境感知和内部自我感知,采用“认知-响应”推理范式,提升角色扮演的一致性和合理性。
  3. CogDual利用强化学习和通用奖励方案进行优化,实验表明其在多个数据集上优于现有基线,具有良好的泛化能力。

📝 摘要(中文)

角色扮演语言智能体(RPLAs)已成为大型语言模型(LLMs)的重要应用方向。现有方法通常依赖于提示工程或监督微调来使模型模仿特定场景中的角色行为,但往往忽略了驱动这些行为的潜在认知机制。受认知心理学启发,我们引入了CogDual,一种采用“认知-响应”推理范式的新型RPLA。通过联合建模外部情境感知和内部自我感知,CogDual生成具有改进的角色一致性和上下文对齐的响应。为了进一步优化性能,我们采用强化学习,并设计了两种用于开放域文本生成的通用奖励方案。在CoSER基准以及Cross-MR和LifeChoice上的大量实验表明,CogDual始终优于现有基线,并在各种角色扮演任务中有效地泛化。

🔬 方法详解

问题定义:现有角色扮演语言智能体(RPLAs)主要依赖提示工程或监督微调,缺乏对角色行为背后认知机制的建模,导致生成的回应在角色一致性和上下文对齐方面表现不佳。这些方法难以捕捉角色内在的动机、情感和价值观,使得角色扮演显得生硬和不自然。

核心思路:CogDual的核心思路是模拟人类的“双重认知”过程,即同时考虑外部情境和内部自我认知。通过显式地建模角色对外部环境的感知以及对自身状态的认知,CogDual能够生成更符合角色设定的、更具一致性的回应。这种“认知-响应”的范式旨在使RPLA的行为更接近真实人类的角色扮演。

技术框架:CogDual的整体框架包含两个主要模块:情境感知模块和自我感知模块。情境感知模块负责理解当前对话的上下文信息,提取关键的事实和关系。自我感知模块则维护角色的内部状态,包括性格、目标、情感等。这两个模块的输出被融合后输入到语言模型中,生成最终的回应。此外,论文还使用强化学习来优化模型的性能,使其更好地适应不同的角色扮演场景。

关键创新:CogDual的关键创新在于其双重认知建模方法,它显式地将外部情境感知和内部自我感知结合起来,从而提升了角色扮演的质量。与传统的prompting或微调方法相比,CogDual能够更好地捕捉角色内在的认知过程,生成更自然、更一致的回应。此外,使用强化学习和隐式规则奖励进一步提升了模型的性能和泛化能力。

关键设计:CogDual使用预训练语言模型作为基础架构,并在此基础上构建情境感知和自我感知模块。情境感知模块可以使用Transformer等模型来提取上下文信息。自我感知模块则可以采用记忆网络或知识图谱等结构来存储和更新角色的内部状态。强化学习部分,论文设计了两种通用的奖励函数,用于指导模型生成更符合角色设定的回应。这些奖励函数基于规则,无需人工标注,易于扩展到不同的角色扮演场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CogDual在CoSER、Cross-MR和LifeChoice等多个角色扮演数据集上进行了评估,实验结果表明,CogDual显著优于现有的基线方法。例如,在CoSER数据集上,CogDual在角色一致性和上下文对齐方面取得了显著的提升。此外,实验还表明,CogDual具有良好的泛化能力,能够有效地应用于不同的角色扮演场景。

🎯 应用场景

CogDual在多个领域具有广泛的应用前景,包括游戏AI、虚拟助手、教育和心理治疗。在游戏AI中,CogDual可以用于创建更逼真、更具互动性的非玩家角色(NPC)。在虚拟助手领域,它可以使助手更具个性化,更好地理解用户的需求。在教育和心理治疗领域,CogDual可以用于模拟不同的情境,帮助学生或患者进行角色扮演和情境练习,从而提高他们的沟通和应对能力。

📄 摘要(原文)

Role-Playing Language Agents (RPLAs) have emerged as a significant application direction for Large Language Models (LLMs). Existing approaches typically rely on prompt engineering or supervised fine-tuning to enable models to imitate character behaviors in specific scenarios, but often neglect the underlying \emph{cognitive} mechanisms driving these behaviors. Inspired by cognitive psychology, we introduce \textbf{CogDual}, a novel RPLA adopting a \textit{cognize-then-respond } reasoning paradigm. By jointly modeling external situational awareness and internal self-awareness, CogDual generates responses with improved character consistency and contextual alignment. To further optimize the performance, we employ reinforcement learning with two general-purpose reward schemes designed for open-domain text generation. Extensive experiments on the CoSER benchmark, as well as Cross-MR and LifeChoice, demonstrate that CogDual consistently outperforms existing baselines and generalizes effectively across diverse role-playing tasks.