Interactive Evaluation Requires a Design Science

作者: Keyang Xuan, Peiyang Song, Pan Lu, Pengrui Han, Wenkai Li, Zhenyu Zhang, Zexue He, Wenyue Hua, Manling Li, Jiaxuan You, Adrian Weller, Yizhong Wang, Jiaxin Pei

分类: cs.AI

发布日期: 2026-05-18

备注: 10 pages

💡 一句话要点

设计科学视角下的交互式评估框架，应对LLM在复杂环境中的评估挑战。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 交互式评估 大型语言模型 评估范式 设计科学 系统级性能

📋 核心要点

现有AI评估方法难以有效评估LLM在复杂交互环境中的长期行为和系统级性能。
论文提出将交互式评估视为一种独立的评估范式，并从设计科学的角度进行系统性分析。
论文构建了双轴分类法，并提出了交互式评估的设计原则和报告标准，为未来研究奠定基础。

📝 摘要（中文）

人工智能评估正经历结构性变革。大型语言模型（LLM）越来越多地被部署为通过工具、环境、用户和其他智能体进行交互的系统，而许多评估实践仍然沿用以响应为中心的基准测试的假设（例如，固定输入、孤立输出以及可以从单个响应中做出的结果判断）。该领域已经开始构建交互式基准，但由此产生的格局是分散的：基准在它们允许的交互工件、轨迹的评分方式以及它们的结果支持的声明方面有所不同。本文认为，交互式评估应被视为一种有原则的评估范式，而不仅仅是一系列新的智能体基准。简单地采用以前的评估范式是不够的。我们将评估定义为从证据到判断的自主映射，并表明交互式评估改变了这种映射的两个方面：证据成为交互生成的轨迹，而评估程序必须评估过程、可恢复性、协调性、鲁棒性和系统级性能。在此定义的基础上，我们提出了一个双轴分类法，推导出设计原则和报告标准，检查了代表性场景，并分析了长期存在的评估挑战如何在轨迹级别重新出现。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）评估方法主要集中在静态的、以响应为中心的基准测试上，无法有效评估LLM在复杂交互环境中的长期行为、可恢复性、协调性、鲁棒性和系统级性能。这些方法无法捕捉LLM与环境、用户和其他智能体之间的动态交互过程，导致评估结果与实际应用场景存在偏差。

核心思路：论文的核心思路是将交互式评估视为一种独立的、有原则的评估范式，并从设计科学的角度进行系统性分析和规范化。这意味着需要重新思考评估的目标、证据、方法和标准，以适应交互式评估的特点和挑战。论文强调，交互式评估不仅仅是构建新的智能体基准，更重要的是建立一套完整的评估体系，包括设计原则、报告标准和评估流程。

技术框架：论文没有提出具体的算法或模型，而是构建了一个用于分析和设计交互式评估框架。该框架包含以下几个关键组成部分：1) 将评估定义为从证据到判断的自主映射，强调证据的来源和判断的依据；2) 提出了一个双轴分类法，用于对不同的交互式评估场景进行分类和比较；3) 推导出了一系列设计原则和报告标准，用于指导交互式评估的设计和实施；4) 分析了长期存在的评估挑战如何在轨迹级别重新出现，为未来的研究方向提供了指导。

关键创新：论文最重要的技术创新在于提出了将交互式评估视为一种独立的评估范式的观点，并从设计科学的角度对其进行系统性分析。这种观点突破了传统的以响应为中心的评估框架，为LLM在复杂环境中的评估提供了新的思路和方法。此外，论文提出的双轴分类法和设计原则也为交互式评估的设计和实施提供了重要的指导。

关键设计：论文的关键设计在于其双轴分类法，该分类法从两个维度对交互式评估场景进行分类：1) 交互工件的类型，例如文本、语音、图像等；2) 轨迹的评分方式，例如基于奖励、基于目标、基于过程等。此外，论文还提出了一系列设计原则，例如可解释性、可重复性、可扩展性等，用于指导交互式评估的设计和实施。

🖼️ 关键图片

📊 实验亮点

论文的核心贡献在于提出了一个交互式评估的设计框架，并强调了其作为独立评估范式的重要性。虽然没有提供具体的实验数据，但论文通过对现有交互式评估场景的分析，指出了现有方法的不足，并为未来的研究方向提供了指导。该框架为构建更可靠、更有效的LLM评估体系奠定了基础。

🎯 应用场景

该研究成果可应用于各种需要评估LLM在复杂交互环境中性能的场景，例如智能助手、游戏AI、机器人控制等。通过采用论文提出的交互式评估框架，可以更全面、更准确地评估LLM的性能，从而提高LLM的可靠性和实用性。未来的研究可以进一步探索更有效的交互式评估方法，并将其应用于更广泛的领域。

📄 摘要（原文）

AI evaluation is undergoing a structural change. Large language models (LLMs) are increasingly deployed as systems that act over time through tools, environments, users, and other agents, while many evaluation practices still inherit assumptions from response-centered benchmarks (e.g., fixed inputs, isolated outputs, and outcome judgments that can be made from a single response). The field has begun to build interactive benchmarks, but the resulting landscape is fragmented: benchmarks differ in what interaction artifacts they admit, how trajectories are scored, and what claims their results support. This position paper argues that interactive evaluation should be treated as a principled evaluation paradigm, not merely a new family of agent benchmarks. Simply adopting previous evaluation paradigms does not suffice. We define evaluation as an autonomous mapping from evidence to judgments, and show that interactive evaluation changes both sides of this mapping: the evidence becomes interaction-generated trajectories, while the evaluation procedure must assess process, recoverability, coordination, robustness, and system-level performance. Building on this definition, we propose a two-axis taxonomy, derive design principles and reporting standards, examine representative scenarios, and analyze how longstanding evaluation challenges reappear at the trajectory level.

Interactive Evaluation Requires a Design Science

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理