FURINA: A Fully Customizable Role-Playing Benchmark via Scalable Multi-Agent Collaboration Pipeline
作者: Haotian Wu, Shufan Jiang, Chios Chen, Yiyang Feng, Hehai Lin, Heqing Zou, Yao Shu, Chengwei Qin
分类: cs.CL, cs.AI, cs.HC, cs.MA
发布日期: 2026-04-07
💡 一句话要点
提出FURINA-Builder,通过可扩展的多智能体协作流程构建完全可定制的角色扮演基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 角色扮演 大型语言模型 基准测试 多智能体协作 自动化评估 幻觉问题 推理能力 可定制化
📋 核心要点
- 现有角色扮演基准测试集范围窄、交互方式过时,难以适应多样化的应用场景,无法充分评估LLM的RP能力。
- FURINA-Builder通过多智能体协作流程自动构建可定制的角色扮演基准,支持不同场景和提示格式下的角色评估。
- 实验结果表明,o3和DeepSeek-R1在英语和中文角色扮演任务上表现最佳,并揭示了推理能力与幻觉之间的权衡。
📝 摘要(中文)
随着大型语言模型(LLMs)在角色扮演(RP)任务中的进步,现有的基准因其范围狭窄、过时的交互模式以及在不同应用场景中的有限适应性而迅速过时。为了解决这一差距,我们引入了FURINA-Builder,这是一种新颖的多智能体协作流程,可以自动构建任何规模的完全可定制的RP基准。它能够评估不同场景和提示格式下的任意角色,是RP领域中第一个用于适应性评估的基准构建器。FURINA-Builder模拟测试角色与其他来自精心构建的角色-场景池中的角色之间的对话,同时LLM评判选择细粒度的评估维度,并将测试角色的响应调整为最终的测试话语。使用此流程,我们构建了FURINA-Bench,这是一个新的综合角色扮演基准,其中包含已建立的和合成的测试角色,每个角色都使用特定维度的评估标准进行评估。人工评估和初步的可分离性分析证明了我们的流程和基准设计的合理性。我们对最先进的LLM进行了广泛的评估,发现o3和DeepSeek-R1分别在英语和中文RP任务上取得了最佳性能。在所有模型中,已建立的角色始终优于合成的角色,推理能力进一步放大了这种差异。有趣的是,我们观察到模型规模并不能单调地减少幻觉。更关键的是,对于推理LLM,我们发现了一个新的权衡:推理提高了RP性能,但同时也增加了RP幻觉。这种权衡扩展到所有LLM的RP性能和可靠性之间更广泛的帕累托前沿。这些发现证明了FURINA-Builder的有效性和FURINA-Bench所带来的挑战。
🔬 方法详解
问题定义:现有角色扮演基准测试集存在覆盖范围有限、交互模式陈旧以及缺乏对不同应用场景的适应性等问题。这些局限性使得它们难以充分评估大型语言模型在角色扮演任务中的真实能力,尤其是在面对复杂和多变的环境时。此外,现有方法在评估指标方面也存在不足,难以进行细粒度的性能分析。
核心思路:论文的核心思路是构建一个自动化的角色扮演基准生成框架,该框架能够根据用户自定义的需求,生成不同规模、不同场景和不同角色设定的测试用例。通过模拟测试角色与其他角色的对话,并利用大型语言模型进行评估,从而实现对角色扮演能力的全面和细致的评估。这种方法的核心在于其高度的可定制性和可扩展性,能够适应不断发展的应用需求。
技术框架:FURINA-Builder的技术框架主要包含以下几个模块:角色-场景池构建模块,负责构建包含各种角色和场景信息的数据库;对话模拟模块,负责模拟测试角色与其他角色之间的对话过程;评估模块,利用大型语言模型对对话内容进行评估,并给出细粒度的评估结果;以及用户界面模块,允许用户自定义测试场景和评估指标。整个流程从用户定义测试需求开始,经过角色-场景选择、对话模拟、LLM评估等环节,最终生成评估报告。
关键创新:该论文的关键创新在于提出了一个完全可定制的角色扮演基准构建流程。与以往的静态基准测试集不同,FURINA-Builder能够根据用户的需求动态生成测试用例,从而更好地适应不同的应用场景和评估目标。此外,该方法还引入了多智能体协作的思想,利用多个LLM协同完成对话模拟和评估任务,提高了评估的准确性和效率。
关键设计:在角色-场景池构建方面,论文采用了多种数据来源,包括已有的角色扮演数据集和人工合成的角色信息。在对话模拟方面,论文设计了一种基于规则和LLM的混合方法,既保证了对话的流畅性和连贯性,又能够模拟真实的角色行为。在评估方面,论文采用了细粒度的评估指标,包括角色一致性、对话流畅性、知识掌握程度等,并利用LLM进行自动评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,o3和DeepSeek-R1在英语和中文角色扮演任务上表现最佳。同时,研究发现已建立的角色表现优于合成角色,且推理能力会放大这种差异。更重要的是,研究揭示了推理能力与幻觉之间的权衡关系:推理可以提高角色扮演性能,但同时也会增加幻觉的产生。这一发现为未来的模型设计提供了重要的参考。
🎯 应用场景
该研究成果可广泛应用于评估和提升大型语言模型在角色扮演、对话生成、游戏AI等领域的性能。通过FURINA-Builder,开发者可以快速构建定制化的测试基准,从而更好地了解模型的优势和不足,并有针对性地进行优化。此外,该方法还可以用于教育和娱乐领域,例如创建个性化的角色扮演游戏和智能对话助手。
📄 摘要(原文)
As large language models (LLMs) advance in role-playing (RP) tasks, existing benchmarks quickly become obsolete due to their narrow scope, outdated interaction paradigms, and limited adaptability across diverse application scenarios. To address this gap, we introduce FURINA-Builder, a novel multi-agent collaboration pipeline that automatically constructs fully customizable RP benchmarks at any scale. It enables evaluation of arbitrary characters across diverse scenarios and prompt formats, as the first benchmark builder in RP area for adaptable assessment. FURINA-Builder simulates dialogues between a test character and other characters drawn from a well-constructed character-scene pool, while an LLM judge selects fine-grained evaluation dimensions and adjusts the test character's responses into final test utterances. Using this pipeline, we build FURINA-Bench, a new comprehensive role-playing benchmark featuring both established and synthesized test characters, each assessed with dimension-specific evaluation criteria. Human evaluation and preliminary separability analysis justify our pipeline and benchmark design. We conduct extensive evaluations of cutting-edge LLMs and find that o3 and DeepSeek-R1 achieve the best performance on English and Chinese RP tasks, respectively. Across all models, established characters consistently outperform synthesized ones, with reasoning capabilities further amplifying this disparity. Interestingly, we observe that model scale does not monotonically reduce hallucinations. More critically, for reasoning LLMs, we uncover a novel trade-off: reasoning improves RP performance but simultaneously increases RP hallucinations. This trade-off extends to a broader Pareto frontier between RP performance and reliability for all LLMs. These findings demonstrate the effectiveness of FURINA-Builder and the challenge posed by FURINA-Bench.