LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

📄 arXiv: 2603.12152v1 📥 PDF

作者: Feiyu Duan, Xuanjing Huang, Zhongyu Wei

分类: cs.CL

发布日期: 2026-03-12


💡 一句话要点

提出LifeSim,用于评估个性化助手在长期用户生活场景中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 用户模拟器 个性化助手 长期交互 信念-欲望-意图模型 基准测试

📋 核心要点

  1. 现有基准测试无法充分模拟真实用户与个性化助手的交互,忽略了外部环境和用户认知状态。
  2. LifeSim通过BDI模型模拟用户认知,生成连贯的生活轨迹,并模拟意图驱动的交互行为。
  3. LifeSim-Eval基准测试揭示了当前LLM在处理隐性意图和长期用户偏好建模方面的不足。

📝 摘要(中文)

大型语言模型(LLMs)的快速发展加速了通用AI助手的进步。然而,现有个性化助手基准测试与真实世界用户-助手交互不符,未能捕捉外部环境和用户认知状态的复杂性。为了弥合这一差距,我们提出了LifeSim,一个用户模拟器,通过在物理环境中基于信念-欲望-意图(BDI)模型对用户认知进行建模,以生成连贯的生活轨迹,并模拟意图驱动的用户交互行为。基于LifeSim,我们引入了LifeSim-Eval,这是一个用于多场景、长时程个性化辅助的综合基准。LifeSim-Eval涵盖8个生活领域和1,200个不同的场景,并采用多轮交互方法来评估模型完成显性和隐性意图、恢复用户资料以及生成高质量响应的能力。在单场景和长时程设置下,我们的实验表明,当前的LLM在处理隐性意图和长期用户偏好建模方面面临重大限制。

🔬 方法详解

问题定义:现有个性化助手评估基准无法模拟真实世界用户与助手的交互,主要痛点在于缺乏对用户认知状态和外部环境的建模,导致评估结果与实际应用场景存在偏差。具体而言,现有方法难以评估助手在理解用户隐性意图和长期偏好方面的能力。

核心思路:LifeSim的核心思路是构建一个用户模拟器,该模拟器能够模拟用户的认知过程和行为模式,从而生成更贴近真实用户交互的对话数据。通过引入信念-欲望-意图(BDI)模型,LifeSim能够模拟用户的认知状态,并根据用户的意图驱动其在虚拟环境中的行为。

技术框架:LifeSim的技术框架主要包括以下几个模块:1) 环境模拟器:模拟物理环境,为用户提供交互的场所。2) 用户认知模型:基于BDI模型,模拟用户的信念、欲望和意图。3) 行为生成器:根据用户的意图,生成用户在环境中的行为,包括对话行为。4) 对话管理器:负责管理用户与助手之间的对话流程。LifeSim-Eval则是在LifeSim基础上构建的评估基准,包含多个生活领域和场景,采用多轮交互的方式评估助手的能力。

关键创新:LifeSim的关键创新在于其基于BDI模型的用户认知建模方法。与传统的基于规则或统计模型的用户模拟器相比,LifeSim能够更真实地模拟用户的认知过程,从而生成更具挑战性的对话数据。此外,LifeSim-Eval作为一个综合性的评估基准,涵盖了多个生活领域和场景,能够更全面地评估个性化助手的性能。

关键设计:LifeSim的关键设计包括:1) BDI模型的具体实现方式,包括信念、欲望和意图的表示和更新机制。2) 行为生成器的设计,如何根据用户的意图生成合适的行为,包括对话行为。3) LifeSim-Eval中场景的设计,如何选择具有代表性的生活场景,并设计合适的评估指标。具体参数设置和网络结构等细节在论文中未明确给出,属于未知信息。

📊 实验亮点

实验结果表明,当前的大型语言模型在LifeSim-Eval基准测试中表现不佳,尤其是在处理隐性意图和长期用户偏好建模方面。这表明现有模型在真实用户交互场景中仍存在显著差距,LifeSim-Eval能够有效区分不同模型的性能差异,为未来的研究提供了有价值的评估工具。

🎯 应用场景

LifeSim可用于训练和评估个性化AI助手,尤其是在需要长期交互和理解用户隐性意图的场景中,例如智能家居、健康管理、教育辅导等。该研究有助于提升AI助手在真实世界中的实用性和用户满意度,并推动人机交互领域的发展。

📄 摘要(原文)

The rapid advancement of large language models (LLMs) has accelerated progress toward universal AI assistants. However, existing benchmarks for personalized assistants remain misaligned with real-world user-assistant interactions, failing to capture the complexity of external contexts and users' cognitive states. To bridge this gap, we propose LifeSim, a user simulator that models user cognition through the Belief-Desire-Intention (BDI) model within physical environments for coherent life trajectories generation, and simulates intention-driven user interactive behaviors. Based on LifeSim, we introduce LifeSim-Eval, a comprehensive benchmark for multi-scenario, long-horizon personalized assistance. LifeSim-Eval covers 8 life domains and 1,200 diverse scenarios, and adopts a multi-turn interactive method to assess models' abilities to complete explicit and implicit intentions, recover user profiles, and produce high-quality responses. Under both single-scenario and long-horizon settings, our experiments reveal that current LLMs face significant limitations in handling implicit intention and long-term user preference modeling.