LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

作者: Feiyu Duan, Xuanjing Huang, Zhongyu Wei

分类: cs.CL

发布日期: 2026-03-12

💡 一句话要点

提出LifeSim，用于评估个性化助手在长期用户生活场景中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 用户模拟器 个性化助手 长期交互 信念-欲望-意图模型 基准测试

📋 核心要点

现有基准测试无法充分模拟真实用户与个性化助手的交互，忽略了外部环境和用户认知状态。
LifeSim通过BDI模型模拟用户认知，生成连贯的生活轨迹，并模拟意图驱动的交互行为。
LifeSim-Eval基准测试揭示了当前LLM在处理隐性意图和长期用户偏好建模方面的不足。

📝 摘要（中文）

大型语言模型（LLMs）的快速发展加速了通用AI助手的进步。然而，现有个性化助手基准测试与真实世界用户-助手交互不符，未能捕捉外部环境和用户认知状态的复杂性。为了弥合这一差距，我们提出了LifeSim，一个用户模拟器，通过在物理环境中基于信念-欲望-意图（BDI）模型对用户认知进行建模，以生成连贯的生活轨迹，并模拟意图驱动的用户交互行为。基于LifeSim，我们引入了LifeSim-Eval，这是一个用于多场景、长时程个性化辅助的综合基准。LifeSim-Eval涵盖8个生活领域和1,200个不同的场景，并采用多轮交互方法来评估模型完成显性和隐性意图、恢复用户资料以及生成高质量响应的能力。在单场景和长时程设置下，我们的实验表明，当前的LLM在处理隐性意图和长期用户偏好建模方面面临重大限制。

🔬 方法详解

问题定义：现有个性化助手评估基准无法模拟真实世界用户与助手的交互，主要痛点在于缺乏对用户认知状态和外部环境的建模，导致评估结果与实际应用场景存在偏差。具体而言，现有方法难以评估助手在理解用户隐性意图和长期偏好方面的能力。

核心思路：LifeSim的核心思路是构建一个用户模拟器，该模拟器能够模拟用户的认知过程和行为模式，从而生成更贴近真实用户交互的对话数据。通过引入信念-欲望-意图（BDI）模型，LifeSim能够模拟用户的认知状态，并根据用户的意图驱动其在虚拟环境中的行为。

技术框架：LifeSim的技术框架主要包括以下几个模块：1) 环境模拟器：模拟物理环境，为用户提供交互的场所。2) 用户认知模型：基于BDI模型，模拟用户的信念、欲望和意图。3) 行为生成器：根据用户的意图，生成用户在环境中的行为，包括对话行为。4) 对话管理器：负责管理用户与助手之间的对话流程。LifeSim-Eval则是在LifeSim基础上构建的评估基准，包含多个生活领域和场景，采用多轮交互的方式评估助手的能力。

关键创新：LifeSim的关键创新在于其基于BDI模型的用户认知建模方法。与传统的基于规则或统计模型的用户模拟器相比，LifeSim能够更真实地模拟用户的认知过程，从而生成更具挑战性的对话数据。此外，LifeSim-Eval作为一个综合性的评估基准，涵盖了多个生活领域和场景，能够更全面地评估个性化助手的性能。

关键设计：LifeSim的关键设计包括：1) BDI模型的具体实现方式，包括信念、欲望和意图的表示和更新机制。2) 行为生成器的设计，如何根据用户的意图生成合适的行为，包括对话行为。3) LifeSim-Eval中场景的设计，如何选择具有代表性的生活场景，并设计合适的评估指标。具体参数设置和网络结构等细节在论文中未明确给出，属于未知信息。

📊 实验亮点

实验结果表明，当前的大型语言模型在LifeSim-Eval基准测试中表现不佳，尤其是在处理隐性意图和长期用户偏好建模方面。这表明现有模型在真实用户交互场景中仍存在显著差距，LifeSim-Eval能够有效区分不同模型的性能差异，为未来的研究提供了有价值的评估工具。

🎯 应用场景

LifeSim可用于训练和评估个性化AI助手，尤其是在需要长期交互和理解用户隐性意图的场景中，例如智能家居、健康管理、教育辅导等。该研究有助于提升AI助手在真实世界中的实用性和用户满意度，并推动人机交互领域的发展。

📄 摘要（原文）

The rapid advancement of large language models (LLMs) has accelerated progress toward universal AI assistants. However, existing benchmarks for personalized assistants remain misaligned with real-world user-assistant interactions, failing to capture the complexity of external contexts and users' cognitive states. To bridge this gap, we propose LifeSim, a user simulator that models user cognition through the Belief-Desire-Intention (BDI) model within physical environments for coherent life trajectories generation, and simulates intention-driven user interactive behaviors. Based on LifeSim, we introduce LifeSim-Eval, a comprehensive benchmark for multi-scenario, long-horizon personalized assistance. LifeSim-Eval covers 8 life domains and 1,200 diverse scenarios, and adopts a multi-turn interactive method to assess models' abilities to complete explicit and implicit intentions, recover user profiles, and produce high-quality responses. Under both single-scenario and long-horizon settings, our experiments reveal that current LLMs face significant limitations in handling implicit intention and long-term user preference modeling.

LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理