RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents
作者: Riccardo Rosati, Edoardo Colucci, Massimiliano Bolognini, Adriano Mancini, Paolo Sernani
分类: cs.CL, cs.AI, cs.MA
发布日期: 2026-04-13
💡 一句话要点
RPA-Check:多阶段自动化框架,评估基于LLM的角色扮演Agent在约束环境下的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 角色扮演Agent LLM评估 自动化评估 思维链 程序一致性
📋 核心要点
- 现有NLP指标难以评估LLM角色扮演Agent的角色一致性、逻辑连贯性和叙事稳定性。
- RPA-Check通过定义维度、增强指标、语义过滤和LLM评估,实现对Agent性能的客观评估。
- 实验表明,较小的指令微调模型在程序一致性方面优于大型模型,揭示了规模与一致性的权衡。
📝 摘要(中文)
大型语言模型(LLM)在交互系统中的快速应用催生了动态、开放的角色扮演Agent(RPA)。然而,评估这些Agent仍然是一个重大挑战,因为标准的NLP指标无法捕捉角色一致性、逻辑连贯性和长期叙事稳定性等细微之处。本文介绍了一种多阶段自动化评估框架RPA-Check,旨在客观评估基于LLM的RPA在复杂、约束性环境中的性能。该方法基于四个步骤:(1)维度定义,建立高级定性行为标准;(2)增强,将这些要求扩展为细粒度的布尔检查表指标;(3)语义过滤,确保指标的客观性、无冗余和Agent隔离;(4)LLM-as-a-Judge评估,采用思维链验证来评估Agent的保真度。通过将其应用于LLM Court(一个用于法庭训练的严肃游戏,涉及多个量化本地模型)来验证该框架。在五个不同的法律场景中的实验结果表明,该框架能够识别模型大小、推理深度和操作稳定性之间的细微权衡。值得注意的是,研究结果揭示了参数规模和程序一致性之间的反比关系,表明较小的、经过充分指令调整的模型(8-9B)可以胜过容易出现用户对齐偏差或谄媚的较大架构。因此,RPA-Check为未来在特定领域中生成Agent评估的研究提供了一个标准化和可重复的指标。
🔬 方法详解
问题定义:现有方法难以有效评估基于LLM的角色扮演Agent,尤其是在复杂和约束性环境中。标准NLP指标无法捕捉角色扮演Agent在角色一致性、逻辑连贯性和长期叙事稳定性等方面的细微差别,导致评估结果不准确。
核心思路:RPA-Check的核心思路是将对角色扮演Agent的评估分解为多个可量化的步骤,并利用LLM作为裁判来评估Agent的表现。通过定义清晰的评估维度,并将其转化为具体的布尔检查表指标,可以更客观地评估Agent的性能。
技术框架:RPA-Check框架包含四个主要阶段:1. 维度定义:确定需要评估的角色扮演Agent的关键行为维度。2. 增强:将每个维度扩展为一组细粒度的布尔检查表指标。3. 语义过滤:确保指标的客观性、无冗余和Agent隔离。4. LLM-as-a-Judge评估:使用LLM作为裁判,通过思维链验证来评估Agent在每个指标上的表现。
关键创新:RPA-Check的关键创新在于其多阶段自动化评估流程,以及利用LLM作为裁判进行评估。这种方法能够更客观、更细致地评估角色扮演Agent的性能,并发现传统评估方法难以捕捉的细微差别。此外,该框架还强调了语义过滤的重要性,以确保评估指标的客观性和有效性。
关键设计:在LLM-as-a-Judge评估阶段,使用了思维链(Chain-of-Thought)提示技术,引导LLM逐步推理并给出判断。此外,框架还考虑了模型大小、推理深度和操作稳定性之间的权衡,并针对不同的场景选择了合适的模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RPA-Check能够有效识别模型大小、推理深度和操作稳定性之间的权衡。值得注意的是,研究发现较小的、经过充分指令调整的模型(8-9B)在程序一致性方面可以胜过较大的模型。例如,在LLM Court的实验中,较小的模型在遵循法律程序方面表现更好,而较大的模型更容易受到用户对齐偏差或谄媚的影响。
🎯 应用场景
RPA-Check可应用于各种需要评估基于LLM的角色扮演Agent的场景,例如:法庭训练、客户服务模拟、教育游戏等。该框架可以帮助开发者更好地理解和改进Agent的性能,并为用户提供更可靠、更逼真的交互体验。此外,该框架还可以用于比较不同Agent的性能,并选择最适合特定任务的Agent。
📄 摘要(原文)
The rapid adoption of Large Language Models (LLMs) in interactive systems has enabled the creation of dynamic, open-ended Role-Playing Agents (RPAs). However, evaluating these agents remains a significant challenge, as standard NLP metrics fail to capture the nuances of role adherence, logical consistency, and long-term narrative stability. This paper introduces RPA-Check, a multi-stage automated evaluation framework designed to objectively assess the performance of LLM-based RPAs in complex, constraints-heavy environments. Our methodology is based on a four-step pipeline: (1) Dimension Definition, establishing high-level qualitative behavioral criteria; (2) Augmentation, where these requirements are expanded into granular boolean checklist indicators; (3) Semantic Filtering, to ensure indicator objectivity, no redundancy and agent isolation; and (4) LLM-as-a-Judge Evaluation, which employs chain-of-thought verification to score agent fidelity. We validate this framework by applying it to LLM Court, a serious game for forensic training involving several quantized local models. Experimental results across five distinct legal scenarios demonstrate the framework's ability to identify subtle trade-offs between model size, reasoning depth, and operational stability. Notably, the findings reveal an inverse relationship between parametric scale and procedural consistency, showing that smaller, adequately instruction-tuned models (8-9B) can outperform larger architectures prone to user-alignment bias or sycophancy. RPA-Check thus provides a standardized and reproducible metric for future research in generative agent evaluation within specialized domains.