SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants?

📄 arXiv: 2510.05444v2 📥 PDF

作者: Yao Dou, Michel Galley, Baolin Peng, Chris Kedzie, Weixin Cai, Alan Ritter, Chris Quirk, Wei Xu, Jianfeng Gao

分类: cs.CL

发布日期: 2025-10-06 (更新: 2025-10-08)

备注: Accepted at EMNLP 2025 Main


💡 一句话要点

提出SimulatorArena以评估用户模拟器在AI助手多轮对话中的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 用户模拟器 多轮对话 AI助手评估 大型语言模型 基准测试 教育技术 文档生成

📋 核心要点

  1. 现有方法缺乏系统性研究,无法验证模拟用户在AI助手评估中的可靠性。
  2. 提出SimulatorArena基准,通过909个标注对话评估模拟器与人类行为的匹配程度。
  3. 实验结果显示,基于用户特征的模拟器与人类判断一致性高,Spearman相关系数达到0.7。

📝 摘要(中文)

大型语言模型(LLMs)在交互应用中的使用日益增加,而人类评估仍然是评估其在多轮对话中表现的金标准。由于人类研究成本高、耗时且难以重现,近期研究探索使用LLMs模拟用户进行自动助手评估。然而,目前缺乏基准或系统研究来评估这些模拟用户是否可靠。为了解决这个问题,本文提出了SimulatorArena,这是一个包含909个标注人类-LLM对话的基准,涵盖数学辅导和文档创作两个交互任务。SimulatorArena评估模拟器的标准是其消息与人类行为的匹配程度以及其助手评分与人类判断的一致性。实验表明,基于用户特征的模拟器与人类判断高度一致,Spearman相关系数达到0.7,提供了一种实用且可扩展的人类评估替代方案。

🔬 方法详解

问题定义:本文旨在解决现有方法中缺乏对用户模拟器可靠性的评估问题,尤其是在多轮对话的AI助手评估中,传统人类评估成本高且难以重现。

核心思路:通过引入SimulatorArena基准,利用909个标注的人类与LLM对话数据,评估模拟器的表现,确保其能够有效替代人类进行助手评估。

技术框架:SimulatorArena的整体架构包括数据收集、对话标注、模拟器评估和结果分析四个主要模块。首先收集人类与LLM的对话数据,然后进行标注,接着评估不同模拟器的表现,最后分析结果以验证其可靠性。

关键创新:本研究的关键创新在于系统性地建立了一个基准,首次对比了多种模拟器的表现,并通过用户特征建模提升了模拟器的准确性,与传统方法相比,提供了更高的评估一致性。

关键设计:在设计中,采用了基于用户背景和消息风格的特征建模,使用Spearman相关系数作为评估指标,确保模拟器的输出与人类判断的高度一致。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果显示,基于用户特征的模拟器在数学辅导和文档创作任务中,Spearman相关系数达到0.7,表明其与人类判断高度一致。通过使用最佳模拟器对18个助手进行基准测试,包括最新的GPT-5和Claude 4.1 Opus,展示了该方法的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括AI助手的性能评估、教育领域的智能辅导系统以及文档生成工具等。通过提供一种可扩展的评估方法,能够降低人类评估的成本,提高评估效率,推动AI助手的进一步发展与优化。

📄 摘要(原文)

Large language models (LLMs) are increasingly used in interactive applications, and human evaluation remains the gold standard for assessing their performance in multi-turn conversations. Since human studies are costly, time-consuming, and hard to reproduce, recent work explores using LLMs to simulate users for automatic assistant evaluation. However, there is no benchmark or systematic study to evaluate whether these simulated users are reliable stand-ins for real users. To address this, we introduce SimulatorArena, a benchmark of 909 annotated human-LLM conversations on two interactive tasks -- math tutoring and document creation. SimulatorArena evaluates simulators based on how closely their messages match human behavior and how well their assistant ratings align with human judgments. Experiments on various simulator methods show that simulators conditioned on user profiles, capturing traits like background and message styles, align closely with human judgments. They reach Spearman's $ρ$ of 0.7 on both tasks, providing a practical, scalable alternative to human evaluation. Using the best simulator for each task, we benchmark 18 assistants, including the latest LLMs such as GPT-5, Claude 4.1 Opus, and Gemini 2.5 Pro.