HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing

📄 arXiv: 2601.21459v1 📥 PDF

作者: Chengyu Du, Xintao Wang, Aili Chen, Weiyuan Li, Rui Xu, Junteng Liu, Zishan Huang, Rong Tian, Zijun Sun, Yuhao Li, Liheng Feng, Deming Ding, Pengyu Zhao, Yanghua Xiao

分类: cs.LG, cs.AI

发布日期: 2026-01-29

备注: 41pages, 10 figures


💡 一句话要点

提出HER框架以解决LLM角色扮演中的认知模拟问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 角色扮演 认知模拟 强化学习 推理数据 奖励模型 双层思维 人类偏好对齐

📋 核心要点

  1. 现有的LLM角色扮演方法在模拟角色内心思维和行为动机方面存在明显不足,缺乏高质量的推理数据和可靠的奖励信号。
  2. 本文提出HER框架,通过双层思维机制,区分角色的第一人称思维与LLM的第三人称思维,增强认知模拟能力。
  3. 实验结果显示,HER框架在CoSER基准上提升了30.26,在Minimax角色扮演基准上提升了14.97,显著优于Qwen3-32B基线模型。

📝 摘要(中文)

LLM角色扮演,即利用大型语言模型模拟特定角色,已成为多种应用中的关键能力。然而,现有模型在捕捉角色行为背后的内心思维方面仍面临挑战。本文提出HER,一个统一的认知级别角色模拟框架,通过双层思维区分角色的第一人称思维与LLM的第三人称思维。为弥补数据和奖励信号的不足,本文构建了增强推理的角色扮演数据,并制定了与人类偏好对齐的奖励模型。通过这些资源,基于Qwen3-32B模型进行监督和强化学习训练,实验结果表明该方法显著优于基线模型。

🔬 方法详解

问题定义:本文旨在解决LLM角色扮演中对角色内心思维的模拟不足,现有方法在推理数据和奖励信号方面存在缺陷,导致角色行为的真实性不足。

核心思路:提出HER框架,通过双层思维机制,分别处理角色的第一人称思维和LLM的第三人称思维,从而实现更为真实的认知模拟。

技术框架:HER框架包括数据增强模块、奖励模型构建模块和基于Qwen3-32B的训练模块。数据增强模块通过逆向工程生成高质量的推理数据,奖励模型则与人类偏好对齐。

关键创新:HER框架的双层思维机制是其核心创新,与现有方法相比,能够更好地模拟角色的内心思维,提升角色扮演的真实性和连贯性。

关键设计:在模型训练中,采用监督学习和强化学习相结合的方法,设计了与人类偏好对齐的奖励函数,确保模型在角色扮演中能够做出更符合人类期望的反应。

📊 实验亮点

实验结果表明,HER框架在多个基准测试中显著提升性能,其中在CoSER基准上提升了30.26分,在Minimax角色扮演基准上提升了14.97分,显示出其优越性和有效性。

🎯 应用场景

该研究的潜在应用领域包括数字游戏、虚拟伴侣和内容创作等。通过提升LLM在角色扮演中的认知模拟能力,能够为用户提供更为真实和个性化的互动体验,具有重要的实际价值和未来影响。

📄 摘要(原文)

LLM role-playing, i.e., using LLMs to simulate specific personas, has emerged as a key capability in various applications, such as companionship, content creation, and digital games. While current models effectively capture character tones and knowledge, simulating the inner thoughts behind their behaviors remains a challenge. Towards cognitive simulation in LLM role-play, previous efforts mainly suffer from two deficiencies: data with high-quality reasoning traces, and reliable reward signals aligned with human preferences. In this paper, we propose HER, a unified framework for cognitive-level persona simulation. HER introduces dual-layer thinking, which distinguishes characters' first-person thinking from LLMs' third-person thinking. To bridge these gaps, we curate reasoning-augmented role-playing data via reverse engineering and construct human-aligned principles and reward models. Leveraging these resources, we train \method models based on Qwen3-32B via supervised and reinforcement learning. Extensive experiments validate the effectiveness of our approach. Notably, our models significantly outperform the Qwen3-32B baseline, achieving a 30.26 improvement on the CoSER benchmark and a 14.97 gain on the Minimax Role-Play Bench. Our datasets, principles, and models will be released to facilitate future research.