$π$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

📄 arXiv: 2605.14678v2 📥 PDF

作者: Haoran Zhang, Luxin Xu, Zhilin Wang, Runquan Gui, Shunkai Zhang, Haodi Lei, Zihao He, Bingsu He, Chicheng Qin, Tong Zhu, Xiaoye Qu, Yang Yang, Yu Cheng, Yafu Li

分类: cs.AI

发布日期: 2026-05-14 (更新: 2026-05-15)

备注: 44 pages


💡 一句话要点

提出$π$-Bench,用于评估个人助理Agent在长程工作流中的主动性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个人助理Agent 主动辅助 长程工作流 多轮交互 用户意图

📋 核心要点

  1. 现有Agent基准测试缺乏对Agent在多轮交互中主动识别和满足用户隐藏意图的评估。
  2. 提出$π$-Bench基准,包含100个多轮任务,涵盖5个领域的用户角色,评估Agent的主动性和任务完成度。
  3. 实验结果表明,主动辅助仍然具有挑战性,任务完成和主动性存在差异,且先前的交互有助于后续任务中的意图解决。

📝 摘要(中文)

个人助理Agent(如OpenClaw)的兴起,凸显了大型语言模型在日常和工作生活中支持用户的巨大潜力。这类场景的一个核心挑战是主动辅助,因为用户通常以不明确的请求开始,并且遗漏重要的需求、约束或偏好。然而,现有的基准很少评估Agent是否能在这些需求被明确提出之前识别并采取行动,尤其是在持续的多轮交互中,用户需求逐渐显现。为了弥补这一差距,我们引入了$π$-Bench,这是一个用于主动辅助的基准,包含100个跨越5个领域特定用户角色的多轮任务。通过结合隐藏的用户意图、任务间的依赖关系和跨会话的连续性,$π$-Bench评估了Agent在长时间交互中预测和满足用户需求的能力,共同衡量了在更好地反映真实世界使用的长程轨迹中的主动性和任务完成度。实验表明:(1)主动辅助仍然具有挑战性,(2)任务完成和主动性之间存在明显的区别,以及(3)先前的交互对于在后续任务中主动解决意图的价值。

🔬 方法详解

问题定义:现有个人助理Agent的评估基准,无法有效衡量Agent在长程多轮交互中,主动发现并满足用户未明确表达的需求(即隐藏意图)的能力。这导致Agent在实际应用中,难以在用户需求逐渐显现的过程中提供及时有效的帮助。现有方法主要关注任务完成度,忽略了Agent的主动性,无法真实反映Agent在实际场景中的表现。

核心思路:$π$-Bench的核心思路是构建一个更贴近真实用户交互场景的评估基准,通过引入隐藏用户意图、任务间的依赖关系和跨会话的连续性,来模拟用户需求逐步显现的过程。通过衡量Agent在任务完成的同时,主动发现并满足用户隐藏意图的能力,从而更全面地评估Agent的性能。

技术框架:$π$-Bench包含以下几个关键组成部分:1) 任务定义:定义了100个多轮任务,涵盖5个领域的用户角色。每个任务都包含明确的任务目标和隐藏的用户意图。2) 交互设计:模拟真实用户交互过程,允许Agent与用户进行多轮对话,逐步获取用户需求。3) 评估指标:同时衡量Agent的任务完成度和主动性,其中主动性通过Agent在用户明确表达需求之前,是否能够识别并满足隐藏意图来评估。4) 跨会话连续性:模拟用户在不同会话之间的连续性,允许Agent利用先前的交互信息来更好地理解用户需求。

关键创新:$π$-Bench的关键创新在于其对主动性的评估。与现有基准只关注任务完成度不同,$π$-Bench通过引入隐藏用户意图,并设计相应的评估指标,来衡量Agent在用户明确表达需求之前,是否能够主动识别并满足这些需求。这种评估方式更贴近真实用户交互场景,能够更全面地评估Agent的性能。

关键设计:$π$-Bench的关键设计包括:1) 隐藏意图的设置:每个任务都包含若干个隐藏的用户意图,这些意图需要在交互过程中逐步被Agent发现。2) 任务间依赖关系:任务之间存在依赖关系,Agent需要利用先前的任务信息来更好地完成后续任务。3) 评估指标的设计:设计了专门的评估指标来衡量Agent的主动性,例如,Agent在用户明确表达需求之前,是否能够主动提供相关信息或服务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有Agent在$π$-Bench上的表现仍然具有挑战性,表明主动辅助是一个尚未解决的问题。实验还发现,任务完成度和主动性之间存在明显的区别,表明仅仅关注任务完成度无法全面评估Agent的性能。此外,实验还验证了先前的交互对于在后续任务中主动解决意图的价值,表明Agent可以通过学习用户历史行为来提高主动性。

🎯 应用场景

$π$-Bench的研究成果可以应用于开发更智能、更主动的个人助理Agent,例如智能家居控制、日程管理、旅行规划等。通过提高Agent的主动性,可以显著提升用户体验,使用户能够更高效地完成各种任务。此外,该基准还可以促进对Agent主动性相关算法的研究,推动人工智能技术的发展。

📄 摘要(原文)

The rise of personal assistant agents, e.g., OpenClaw, highlights the growing potential of large language models to support users across everyday life and work. A core challenge in these settings is proactive assistance, since users often begin with underspecified requests and leave important needs, constraints, or preferences unstated. However, existing benchmarks rarely evaluate whether agents can identify and act on such hidden intents before they are explicitly stated, especially in sustained multi-turn interactions where user needs emerge gradually. To address this gap, we introduce $π$-Bench, a benchmark for proactive assistance comprising 100 multi-turn tasks across 5 domain-specific user personas. By incorporating hidden user intents, inter-task dependencies, and cross-session continuity, $π$-Bench evaluates agents' ability to anticipate and address user needs over extended interactions, jointly measuring proactivity and task completion in long-horizon trajectories that better reflect real-world use. Experiments show (1) proactive assistance remains challenging, (2) a clear distinction between task completion and proactivity, and (3) the value of prior interaction for proactive intent resolution in later tasks.