RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents

作者: Riccardo Rosati, Edoardo Colucci, Massimiliano Bolognini, Adriano Mancini, Paolo Sernani

分类: cs.CL, cs.AI, cs.MA

发布日期: 2026-04-13

💡 一句话要点

RPA-Check：多阶段自动化框架，评估基于LLM的角色扮演Agent在约束环境下的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 角色扮演Agent LLM评估 自动化评估 思维链 程序一致性

📋 核心要点

现有NLP指标难以评估LLM角色扮演Agent的角色一致性、逻辑连贯性和叙事稳定性。
RPA-Check通过定义维度、增强指标、语义过滤和LLM评估，实现对Agent性能的客观评估。
实验表明，较小的指令微调模型在程序一致性方面优于大型模型，揭示了规模与一致性的权衡。

📝 摘要（中文）

大型语言模型（LLM）在交互系统中的快速应用催生了动态、开放的角色扮演Agent（RPA）。然而，评估这些Agent仍然是一个重大挑战，因为标准的NLP指标无法捕捉角色一致性、逻辑连贯性和长期叙事稳定性等细微之处。本文介绍了一种多阶段自动化评估框架RPA-Check，旨在客观评估基于LLM的RPA在复杂、约束性环境中的性能。该方法基于四个步骤：（1）维度定义，建立高级定性行为标准；（2）增强，将这些要求扩展为细粒度的布尔检查表指标；（3）语义过滤，确保指标的客观性、无冗余和Agent隔离；（4）LLM-as-a-Judge评估，采用思维链验证来评估Agent的保真度。通过将其应用于LLM Court（一个用于法庭训练的严肃游戏，涉及多个量化本地模型）来验证该框架。在五个不同的法律场景中的实验结果表明，该框架能够识别模型大小、推理深度和操作稳定性之间的细微权衡。值得注意的是，研究结果揭示了参数规模和程序一致性之间的反比关系，表明较小的、经过充分指令调整的模型（8-9B）可以胜过容易出现用户对齐偏差或谄媚的较大架构。因此，RPA-Check为未来在特定领域中生成Agent评估的研究提供了一个标准化和可重复的指标。

🔬 方法详解

问题定义：现有方法难以有效评估基于LLM的角色扮演Agent，尤其是在复杂和约束性环境中。标准NLP指标无法捕捉角色扮演Agent在角色一致性、逻辑连贯性和长期叙事稳定性等方面的细微差别，导致评估结果不准确。

核心思路：RPA-Check的核心思路是将对角色扮演Agent的评估分解为多个可量化的步骤，并利用LLM作为裁判来评估Agent的表现。通过定义清晰的评估维度，并将其转化为具体的布尔检查表指标，可以更客观地评估Agent的性能。

技术框架：RPA-Check框架包含四个主要阶段：1. 维度定义：确定需要评估的角色扮演Agent的关键行为维度。2. 增强：将每个维度扩展为一组细粒度的布尔检查表指标。3. 语义过滤：确保指标的客观性、无冗余和Agent隔离。4. LLM-as-a-Judge评估：使用LLM作为裁判，通过思维链验证来评估Agent在每个指标上的表现。

关键创新：RPA-Check的关键创新在于其多阶段自动化评估流程，以及利用LLM作为裁判进行评估。这种方法能够更客观、更细致地评估角色扮演Agent的性能，并发现传统评估方法难以捕捉的细微差别。此外，该框架还强调了语义过滤的重要性，以确保评估指标的客观性和有效性。

关键设计：在LLM-as-a-Judge评估阶段，使用了思维链（Chain-of-Thought）提示技术，引导LLM逐步推理并给出判断。此外，框架还考虑了模型大小、推理深度和操作稳定性之间的权衡，并针对不同的场景选择了合适的模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RPA-Check能够有效识别模型大小、推理深度和操作稳定性之间的权衡。值得注意的是，研究发现较小的、经过充分指令调整的模型（8-9B）在程序一致性方面可以胜过较大的模型。例如，在LLM Court的实验中，较小的模型在遵循法律程序方面表现更好，而较大的模型更容易受到用户对齐偏差或谄媚的影响。

🎯 应用场景

RPA-Check可应用于各种需要评估基于LLM的角色扮演Agent的场景，例如：法庭训练、客户服务模拟、教育游戏等。该框架可以帮助开发者更好地理解和改进Agent的性能，并为用户提供更可靠、更逼真的交互体验。此外，该框架还可以用于比较不同Agent的性能，并选择最适合特定任务的Agent。

📄 摘要（原文）

The rapid adoption of Large Language Models (LLMs) in interactive systems has enabled the creation of dynamic, open-ended Role-Playing Agents (RPAs). However, evaluating these agents remains a significant challenge, as standard NLP metrics fail to capture the nuances of role adherence, logical consistency, and long-term narrative stability. This paper introduces RPA-Check, a multi-stage automated evaluation framework designed to objectively assess the performance of LLM-based RPAs in complex, constraints-heavy environments. Our methodology is based on a four-step pipeline: (1) Dimension Definition, establishing high-level qualitative behavioral criteria; (2) Augmentation, where these requirements are expanded into granular boolean checklist indicators; (3) Semantic Filtering, to ensure indicator objectivity, no redundancy and agent isolation; and (4) LLM-as-a-Judge Evaluation, which employs chain-of-thought verification to score agent fidelity. We validate this framework by applying it to LLM Court, a serious game for forensic training involving several quantized local models. Experimental results across five distinct legal scenarios demonstrate the framework's ability to identify subtle trade-offs between model size, reasoning depth, and operational stability. Notably, the findings reveal an inverse relationship between parametric scale and procedural consistency, showing that smaller, adequately instruction-tuned models (8-9B) can outperform larger architectures prone to user-alignment bias or sycophancy. RPA-Check thus provides a standardized and reproducible metric for future research in generative agent evaluation within specialized domains.

RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理