HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing

作者: Chengyu Du, Xintao Wang, Aili Chen, Weiyuan Li, Rui Xu, Junteng Liu, Zishan Huang, Rong Tian, Zijun Sun, Yuhao Li, Liheng Feng, Deming Ding, Pengyu Zhao, Yanghua Xiao

分类: cs.LG, cs.AI

发布日期: 2026-01-29

备注: 41pages, 10 figures

💡 一句话要点

提出HER框架以解决LLM角色扮演中的认知模拟问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 角色扮演 认知模拟 强化学习 推理数据 奖励模型 双层思维 人类偏好对齐

📋 核心要点

现有的LLM角色扮演方法在模拟角色内心思维和行为动机方面存在明显不足，缺乏高质量的推理数据和可靠的奖励信号。
本文提出HER框架，通过双层思维机制，区分角色的第一人称思维与LLM的第三人称思维，增强认知模拟能力。
实验结果显示，HER框架在CoSER基准上提升了30.26，在Minimax角色扮演基准上提升了14.97，显著优于Qwen3-32B基线模型。

📝 摘要（中文）

LLM角色扮演，即利用大型语言模型模拟特定角色，已成为多种应用中的关键能力。然而，现有模型在捕捉角色行为背后的内心思维方面仍面临挑战。本文提出HER，一个统一的认知级别角色模拟框架，通过双层思维区分角色的第一人称思维与LLM的第三人称思维。为弥补数据和奖励信号的不足，本文构建了增强推理的角色扮演数据，并制定了与人类偏好对齐的奖励模型。通过这些资源，基于Qwen3-32B模型进行监督和强化学习训练，实验结果表明该方法显著优于基线模型。

🔬 方法详解

问题定义：本文旨在解决LLM角色扮演中对角色内心思维的模拟不足，现有方法在推理数据和奖励信号方面存在缺陷，导致角色行为的真实性不足。

核心思路：提出HER框架，通过双层思维机制，分别处理角色的第一人称思维和LLM的第三人称思维，从而实现更为真实的认知模拟。

技术框架：HER框架包括数据增强模块、奖励模型构建模块和基于Qwen3-32B的训练模块。数据增强模块通过逆向工程生成高质量的推理数据，奖励模型则与人类偏好对齐。

关键创新：HER框架的双层思维机制是其核心创新，与现有方法相比，能够更好地模拟角色的内心思维，提升角色扮演的真实性和连贯性。

关键设计：在模型训练中，采用监督学习和强化学习相结合的方法，设计了与人类偏好对齐的奖励函数，确保模型在角色扮演中能够做出更符合人类期望的反应。

📊 实验亮点

实验结果表明，HER框架在多个基准测试中显著提升性能，其中在CoSER基准上提升了30.26分，在Minimax角色扮演基准上提升了14.97分，显示出其优越性和有效性。

🎯 应用场景

该研究的潜在应用领域包括数字游戏、虚拟伴侣和内容创作等。通过提升LLM在角色扮演中的认知模拟能力，能够为用户提供更为真实和个性化的互动体验，具有重要的实际价值和未来影响。

📄 摘要（原文）

LLM role-playing, i.e., using LLMs to simulate specific personas, has emerged as a key capability in various applications, such as companionship, content creation, and digital games. While current models effectively capture character tones and knowledge, simulating the inner thoughts behind their behaviors remains a challenge. Towards cognitive simulation in LLM role-play, previous efforts mainly suffer from two deficiencies: data with high-quality reasoning traces, and reliable reward signals aligned with human preferences. In this paper, we propose HER, a unified framework for cognitive-level persona simulation. HER introduces dual-layer thinking, which distinguishes characters' first-person thinking from LLMs' third-person thinking. To bridge these gaps, we curate reasoning-augmented role-playing data via reverse engineering and construct human-aligned principles and reward models. Leveraging these resources, we train \method models based on Qwen3-32B via supervised and reinforcement learning. Extensive experiments validate the effectiveness of our approach. Notably, our models significantly outperform the Qwen3-32B baseline, achieving a 30.26 improvement on the CoSER benchmark and a 14.97 gain on the Minimax Role-Play Bench. Our datasets, principles, and models will be released to facilitate future research.

HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理