DynSess: Dynamic Session-Level Evaluation and Optimization Framework for Role-Playing Agents

作者: Rongsheng Zhang, Jiji Tang, Junnan Ren, Zuyi Bao, Weijie Chen, Ruofan Hu, Zhou Zhao, Tangjie Lv, Yan Zhang

分类: cs.CL, cs.AI

发布日期: 2026-05-28

💡 一句话要点

DynSess：用于角色扮演Agent的动态会话级评估与优化框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 角色扮演Agent 会话级评估 强化学习 多轮对话 前瞻搜索

📋 核心要点

现有角色扮演Agent的评估和优化方法主要在turn级别，忽略了长期对话中的角色一致性和交互质量。
DynSess框架通过会话级评估和多轮前瞻搜索，构建高质量训练轨迹，提升Agent的长期角色扮演能力。
实验表明，DynSess在评估对齐人类判断方面优于现有方法，且训练出的Agent在参数量更少的情况下，性能与最强模型相当。

📝 摘要（中文）

本文提出DynSess，一个统一的会话级框架，用于角色扮演Agent的评估和优化。角色扮演本质上是一个会话级任务，要求Agent在多轮对话中保持角色身份和交互质量。然而，现有的评估和优化方法主要集中在turn级别，无法捕捉长期的质量。DynSess-Eval通过针对长期行为的规则来评估完整的对话会话。利用会话级奖励，通过多轮前瞻搜索构建高质量的训练轨迹，并训练DynSess-Character，包含DSPO（离策略）和GSRPO（在策略）两种变体。实验表明，DynSess-Eval比之前的评估器更符合人类判断，并且盲人人工评估表明，DynSess-Character匹配了最强的角色模型，同时参数量大大减少，并保持了强大的角色一致性和交互能力。数据集和代码将开源。

🔬 方法详解

问题定义：现有角色扮演Agent的评估和优化方法主要关注单轮对话的质量，缺乏对长期对话中角色一致性、交互连贯性等会话级别指标的有效评估。这导致训练出的Agent难以维持长期一致的角色设定，影响用户体验。

核心思路：DynSess的核心思路是将角色扮演任务视为一个会话级别的整体，通过会话级别的评估指标来指导Agent的训练。通过多轮前瞻搜索，Agent可以预测未来对话的走向，并选择更有利于长期角色扮演目标的策略。

技术框架：DynSess框架包含两个主要模块：DynSess-Eval和DynSess-Character。DynSess-Eval负责对完整的对话会话进行评估，输出会话级别的奖励信号。DynSess-Character利用这些奖励信号进行训练，目标是最大化长期回报。训练过程使用多轮前瞻搜索来构建高质量的训练轨迹，并采用DSPO（离策略）和GSRPO（在策略）两种强化学习算法。

关键创新：DynSess的关键创新在于提出了会话级别的评估指标，并将其应用于Agent的训练过程中。这使得Agent能够更好地理解长期角色扮演的目标，并学习到更有效的策略。此外，多轮前瞻搜索能够帮助Agent探索更广阔的策略空间，找到更优的长期策略。

关键设计：DynSess-Eval使用人工设计的规则（rubrics）来评估对话会话的质量，这些规则涵盖了角色一致性、交互质量、信息量等多个方面。DynSess-Character使用Transformer模型作为基础架构，并采用DSPO和GSRPO两种强化学习算法进行训练。DSPO是一种离策略算法，可以利用历史数据进行训练；GSRPO是一种在策略算法，可以更好地适应当前策略的变化。具体参数设置（如学习率、折扣因子等）未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DynSess-Eval与人类判断的对齐程度显著优于现有评估器。盲人人工评估显示，DynSess-Character在参数量大幅减少的情况下，性能与最强的角色扮演模型相当，同时保持了强大的角色一致性和交互能力。具体提升幅度未知。

🎯 应用场景

DynSess框架可应用于各种需要长期角色扮演的场景，例如虚拟助手、游戏AI、教育机器人等。通过提升Agent的角色一致性和交互质量，可以提高用户满意度，增强用户粘性。未来，该框架还可以扩展到其他类型的对话任务，例如知识问答、情感陪伴等。

📄 摘要（原文）

Role-playing with large language models is fundamentally a session-level task, requiring agents to sustain character identity and interaction quality across extended multi-turn conversations. Yet existing evaluation and optimization methods remain largely turn-level, failing to capture long-horizon quality. We propose DynSess, a unified session-level framework for role-playing agents. DynSess-Eval scores complete dialogue sessions via rubrics targeting long-horizon behaviors. Leveraging its session-level rewards, we construct high-quality training trajectories through multi-turn lookahead search and train DynSess-Character with two complementary variants: DSPO (off-policy) and GSRPO (on-policy). Experiments show that DynSess-Eval aligns with human judgments substantially better than prior evaluators, and blind human evaluation further shows that DynSess-Character matches the strongest character model despite using substantially fewer parameters, while maintaining strong role consistency and interactive ability. Our dataset and code will be released to facilitate future research.

DynSess: Dynamic Session-Level Evaluation and Optimization Framework for Role-Playing Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理