Efficient Agent Evaluation via Diversity-Guided User Simulation
作者: Itay Nakash, George Kour, Ateret Anaby-Tavor
分类: cs.AI
发布日期: 2026-04-23
💡 一句话要点
提出DIVERT,通过多样性引导的用户模拟高效评估LLM客服Agent
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 用户模拟 Agent评估 大型语言模型 多样性引导 轨迹分支
📋 核心要点
- 现有评估方法依赖线性蒙特卡洛展开,效率低且难以发现罕见用户行为导致的深层失败。
- DIVERT通过快照技术重用对话前缀,并利用多样性引导的用户响应进行分支探索。
- 实验表明,DIVERT能以更高效率发现更多失败案例,并扩展了失败识别的任务范围。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被部署为面向客户的Agent,但由于随机的、多轮交互,评估其可靠性仍然具有挑战性。当前的评估协议依赖于完整Agent-用户对话的线性蒙特卡洛展开来估计成功率。然而,这种方法计算效率低下,会重复生成相同的早期前缀,并且常常无法发现由罕见用户行为引起的深层失败模式。我们引入DIVERT(通过轨迹分支实现多样性诱导评估),这是一个高效的、基于快照的、覆盖引导的用户模拟框架,用于系统地探索Agent-用户交互。DIVERT在关键决策点捕获完整的Agent-环境状态,并从这些快照恢复执行,从而能够重用共享的对话前缀并减少冗余计算。从每个连接点,该框架使用有针对性的、多样性诱导的用户响应进行分支,从而可以定向探索替代交互路径。通过将评估重点放在语义多样且未充分探索的轨迹上,DIVERT提高了效率和覆盖率。经验结果表明,与标准线性展开协议相比,它发现了更多的每token失败,同时扩展了识别失败的任务集。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)作为客服Agent时,评估其可靠性的难题。现有方法,如线性蒙特卡洛展开,存在计算效率低、重复计算对话前缀以及难以发现罕见用户行为导致的深层失败模式等痛点。这些痛点使得全面评估LLM客服Agent的性能变得困难。
核心思路:DIVERT的核心思路是通过多样性引导的用户模拟,更高效、更全面地探索Agent-用户交互空间。它通过捕获Agent-环境状态的快照,并从这些快照出发,利用多样性诱导的用户响应进行分支探索,从而避免重复计算,并更有针对性地发现潜在的失败模式。这种方法旨在提高评估的效率和覆盖率。
技术框架:DIVERT框架包含以下主要模块/阶段:1) 快照捕获:在Agent-用户交互的关键决策点,捕获Agent和环境的完整状态,保存为快照。2) 快照重用:从快照恢复执行,重用共享的对话前缀,避免重复计算。3) 多样性分支:从每个快照出发,生成多样性的用户响应,引导探索不同的交互路径。4) 失败检测:在不同的交互路径上检测Agent的失败情况。5) 评估指标:基于失败检测结果,评估Agent的性能。
关键创新:DIVERT最重要的技术创新点在于其多样性引导的分支探索策略。与传统的线性展开方法不同,DIVERT不是简单地沿着一条路径进行模拟,而是从关键决策点出发,利用多样性的用户响应进行分支,从而可以更全面地探索Agent-用户交互空间,发现潜在的失败模式。这种方法能够更有效地利用计算资源,提高评估的效率和覆盖率。
关键设计:DIVERT的关键设计包括:1) 快照捕获频率:需要合理设置快照捕获的频率,以平衡计算成本和信息损失。2) 多样性度量:需要定义合适的多样性度量,以确保生成的用户响应具有足够的语义多样性。可以使用例如余弦相似度,编辑距离等方法来衡量用户响应之间的差异。3) 分支策略:需要设计合适的分支策略,以控制分支的数量和探索的深度。4) 失败定义:需要明确定义Agent的失败标准,例如回答错误、无法理解用户意图等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DIVERT在发现Agent失败方面的效率显著高于标准线性展开协议。具体来说,DIVERT在每个token上发现的失败数量更多,并且能够识别出更多任务上的失败。这表明DIVERT能够更有效地利用计算资源,更全面地评估Agent的性能。
🎯 应用场景
DIVERT可应用于各种基于LLM的客服Agent的评估和改进,例如智能客服、虚拟助手等。通过更高效、更全面地发现Agent的潜在问题,可以帮助开发者提升Agent的可靠性和用户体验。此外,该方法还可以用于训练数据的增强,生成更多样化的训练样本,从而提高Agent的鲁棒性。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed as customer-facing agents, yet evaluating their reliability remains challenging due to stochastic, multi-turn interactions. Current evaluation protocols rely on linear Monte Carlo rollouts of complete agent-user conversations to estimate success. However, this approach is computationally inefficient, repeatedly regenerating identical early prefixes, and often fails to uncover deep failure modes that arise from rare user behaviors. We introduce DIVERT (Diversity-Induced Evaluation via Branching of Trajectories), an efficient, snapshot-based, coverage-guided user simulation framework for systematic exploration of agent-user interactions. DIVERT captures the full agent-environment state at critical decision points and resumes execution from these snapshots, enabling reuse of shared conversation prefixes and reducing redundant computation. From each junction, the framework branches using targeted, diversity-inducing user responses, allowing directed exploration of alternative interaction paths. By focusing evaluation on semantically diverse and underexplored trajectories, DIVERT improves both efficiency and coverage. Empirical results show that it discovers more failures per token compared to standard linear rollout protocols, while expanding the set of tasks on which failures are identified.