VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions
作者: Yuxin Chen, Yi Zhang, Zhengzhou Cai, Yaorui Shi, Zhiyuan Yao, Chenhang Cui, Jingnan Zheng, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua
分类: cs.AI
发布日期: 2026-05-26
💡 一句话要点
VitaBench 2.0:评估长期用户交互中个性化和主动型Agent
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent评估 长期交互 个性化建模 主动交互 大型语言模型 人机协作 用户偏好 基准测试
📋 核心要点
- 现有Agent基准测试侧重于推理和工具使用,忽略了在现实场景中理解和利用用户偏好的挑战。
- VitaBench 2.0通过构建长期用户交互场景,评估Agent在个性化建模和主动交互方面的能力。
- 实验结果表明,即使是最先进的LLM,在现实世界的个性化方面仍然面临挑战,存在显著的性能差距。
📝 摘要(中文)
大型语言模型(LLMs)已发展成为能够与用户在真实世界任务中协作的交互式Agent。在这种环境中,有效的协作越来越依赖于对用户超出明确陈述内容的理解,因为用户意图通常反映在零散的日常交互中,需要个性化建模和主动交互。然而,现有的Agent基准测试主要评估推理和工具使用,很大程度上忽略了在现实场景中推断和利用用户偏好的挑战。为了解决这一差距,我们推出了VitaBench 2.0,这是一个用于评估长期用户交互中个性化和主动Agent行为的基准。在VitaBench 2.0中,任务被组织为单个用户的时间排序序列,其中偏好嵌入在零散和异构的交互中。成功完成任务需要Agent不断地从这些交互中提取、利用和更新用户偏好。我们还通过需要Agent识别缺失信息并主动从用户或环境中获取信息才能做出决策的任务来评估主动性。为了支持系统分析,我们提供了一个可扩展的内存接口,可以对不同的内存架构进行受控比较。我们对各种前沿的专有和开源LLM进行了基准测试。结果表明,即使对于最先进的模型,现实世界的个性化仍然极具挑战性,揭示了当前能力与实际需求之间存在巨大差距。广泛的分析进一步揭示了当前Agent在现实世界个性化决策中的失败模式和能力瓶颈,为未来的模型改进提供了见解。
🔬 方法详解
问题定义:现有Agent评估benchmark主要关注推理和工具使用,缺乏对Agent在长期交互中理解和利用用户偏好的能力评估。真实场景下,用户意图隐含在碎片化的交互中,需要Agent具备个性化建模和主动交互能力。因此,如何有效评估Agent在长期用户交互中的个性化和主动性成为一个关键问题。
核心思路:VitaBench 2.0的核心思路是构建一个模拟真实用户交互的长期任务序列,其中用户的偏好隐含在异构的交互数据中。Agent需要通过持续学习和更新用户偏好,才能成功完成任务。同时,通过设计需要Agent主动获取信息的任务,评估其主动性。
技术框架:VitaBench 2.0包含以下主要组成部分:1) 一系列时间排序的用户任务序列,模拟长期用户交互;2) 异构的交互数据,包含用户偏好信息;3) 可扩展的内存接口,用于存储和更新用户偏好;4) 评估指标,用于衡量Agent的个性化建模和主动交互能力。Agent通过与环境交互,观察用户行为,更新内存中的用户偏好,并根据当前任务和用户偏好做出决策。
关键创新:VitaBench 2.0的关键创新在于其对长期用户交互场景的模拟,以及对Agent个性化建模和主动交互能力的评估。与现有benchmark相比,VitaBench 2.0更贴近真实应用场景,能够更全面地评估Agent的智能水平。此外,可扩展的内存接口为研究不同的记忆架构提供了便利。
关键设计:VitaBench 2.0的任务设计需要考虑用户偏好的多样性和隐蔽性,以及Agent主动获取信息的必要性。评估指标需要能够准确衡量Agent的个性化建模和主动交互能力,例如,任务完成率、用户满意度等。内存接口的设计需要考虑存储效率和访问速度,以及对不同类型用户偏好的支持。
🖼️ 关键图片
📊 实验亮点
VitaBench 2.0对一系列前沿的专有和开源LLM进行了基准测试。实验结果表明,即使是最先进的模型,在现实世界的个性化方面仍然面临挑战,揭示了当前能力与实际需求之间存在巨大差距。该benchmark揭示了当前Agent在现实世界个性化决策中的失败模式和能力瓶颈,为未来的模型改进提供了重要的参考。
🎯 应用场景
VitaBench 2.0的研究成果可应用于开发更智能、更个性化的Agent,例如智能助手、推荐系统、对话系统等。这些Agent能够更好地理解用户需求,提供更贴心的服务,从而提升用户体验。未来,该研究有望推动人机交互领域的发展,实现更自然、更高效的人机协作。
📄 摘要(原文)
Large language models (LLMs) have evolved into interactive agents that collaborate with users in real-world tasks. Effective collaboration in such settings increasingly depends on understanding the user beyond what is explicitly stated, as user intent is often reflected in fragmented daily interactions and requires both personalized modeling and proactive interaction. However, existing agent benchmarks primarily evaluate reasoning and tool use, largely overlooking the challenges of inferring and leveraging user preferences in realistic scenarios. To address this gap, we introduce VitaBench 2.0, a benchmark for evaluating personalized and proactive agent behavior in long-term user interactions. In VitaBench 2.0, tasks are organized as temporally ordered sequences for individual users, where preferences are embedded in fragmented and heterogeneous interactions. Successful completion of tasks requires the agent to continuously extract, utilize, and update user preferences from these interactions. We further evaluate proactiveness through tasks that require agents to recognize missing information and actively acquire it from users or environments before making decisions. To support systematic analysis, we provide an extensible memory interface that enables controlled comparison across different memory architectures. We benchmark a diverse set of frontier proprietary and open-source LLMs. Results show that real-world personalization remains highly challenging even for state-of-the-art models, revealing a substantial gap between current capabilities and practical requirements. Extensive analysis further reveals the failure modes and capability bottlenecks of current agents in real-world personalized decision-making, providing insights for future model improvements.