Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

📄 arXiv: 2604.08362v1 📥 PDF

作者: Jiawei Chen, Ruoxi Xu, Boxi Cao, Ruotong Pan, Yunfei Zhang, Yifei Hu, Yong Du, Tingting Gao, Yaojie Lu, Yingfei Sun, Xianpei Han, Le Sun, Xiangyu Wu, Hongyu Lin

分类: cs.CL

发布日期: 2026-04-09


💡 一句话要点

OmniBehavior:构建真实世界人类行为模拟基准,揭示LLM在复杂行为建模中的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 用户模拟 大型语言模型 行为建模 真实世界数据 基准测试

📋 核心要点

  1. 现有用户模拟基准缺乏真实性,主要受限于孤立场景、狭窄动作空间和合成数据,无法捕捉人类行为的复杂性。
  2. OmniBehavior基准通过整合真实世界数据中的长时程、跨场景和异构行为模式,构建更贴近现实的用户模拟环境。
  3. 实验表明,现有LLM在模拟复杂人类行为时存在局限性,并揭示了LLM模拟中存在的结构性偏差,如人格同质化。

📝 摘要(中文)

大型语言模型(LLMs)的出现展现了通用用户模拟器的潜力。然而,现有的基准测试仍然局限于孤立的场景、狭窄的动作空间或合成数据,未能捕捉到真实人类行为的整体性。为了弥合这一差距,我们推出了OmniBehavior,这是第一个完全由真实世界数据构建的用户模拟基准,它将长时程、跨场景和异构行为模式整合到一个统一的框架中。基于此基准,我们首先提供了经验证据,表明先前具有孤立场景的数据集存在隧道视野问题,而现实世界的决策依赖于长期的跨场景因果链。对最先进的LLM的广泛评估表明,当前的模型难以准确地模拟这些复杂的行为,即使上下文窗口扩大,性能也会停滞不前。至关重要的是,模拟行为和真实行为之间的系统比较揭示了一种基本的结构性偏差:LLM倾向于收敛于一个积极的平均人,表现出过度活跃、人格同质化和乌托邦偏见。这导致了个人差异和长尾行为的丧失,突出了未来高保真模拟研究的关键方向。

🔬 方法详解

问题定义:现有用户模拟器benchmark无法模拟真实世界中人类行为的复杂性,主要体现在:1)场景孤立,缺乏跨场景的长期依赖关系;2)行为空间狭窄,无法覆盖真实世界中异构的行为模式;3)数据多为合成数据,与真实人类行为存在差距。这些局限性导致现有用户模拟器难以应用于实际场景。

核心思路:论文的核心思路是构建一个更贴近真实世界的人类行为模拟基准,即OmniBehavior。该基准通过整合真实世界数据中的长时程、跨场景和异构行为模式,来模拟人类行为的复杂性。通过在该基准上评估现有LLM的性能,可以发现LLM在模拟复杂人类行为方面的不足,并为未来的研究提供方向。

技术框架:OmniBehavior基准包含以下几个关键组成部分:1)长时程行为轨迹:记录用户在一段时间内的行为序列,捕捉长期依赖关系;2)跨场景行为:涵盖用户在不同场景下的行为,模拟真实世界中场景之间的关联;3)异构行为模式:包含多种类型的用户行为,如购物、社交、娱乐等,模拟真实世界中行为的多样性。基于该基准,论文对现有LLM进行评估,并分析LLM在模拟复杂人类行为方面的表现。

关键创新:OmniBehavior基准的主要创新在于其真实性和全面性。与现有基准相比,OmniBehavior完全基于真实世界数据构建,能够更真实地反映人类行为的复杂性。此外,OmniBehavior涵盖了长时程、跨场景和异构行为模式,能够更全面地评估用户模拟器的性能。

关键设计:OmniBehavior基准的数据来源于真实世界的用户行为数据,具体来源未知。论文中没有详细描述数据清洗、预处理和构建的具体细节。评估指标主要关注模拟行为与真实行为之间的相似度,以及LLM在模拟过程中表现出的偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLM在OmniBehavior基准上的表现不佳,即使增加上下文窗口也无法显著提升性能。此外,研究还发现LLM在模拟人类行为时存在结构性偏差,如过度活跃、人格同质化和乌托邦偏见。这些发现揭示了现有LLM在模拟复杂人类行为方面的局限性,并为未来的研究提供了重要的指导。

🎯 应用场景

该研究成果可应用于开发更真实、更智能的虚拟助手、游戏AI和社交机器人。通过更准确地模拟人类行为,可以提升用户体验,改善人机交互,并为社会科学研究提供更可靠的模拟工具。未来的研究可以基于此基准,开发更强大的用户模拟器,从而推动相关领域的发展。

📄 摘要(原文)

The emergence of Large Language Models (LLMs) has illuminated the potential for a general-purpose user simulator. However, existing benchmarks remain constrained to isolated scenarios, narrow action spaces, or synthetic data, failing to capture the holistic nature of authentic human behavior. To bridge this gap, we introduce OmniBehavior, the first user simulation benchmark constructed entirely from real-world data, integrating long-horizon, cross-scenario, and heterogeneous behavioral patterns into a unified framework. Based on this benchmark, we first provide empirical evidence that previous datasets with isolated scenarios suffer from tunnel vision, whereas real-world decision-making relies on long-term, cross-scenario causal chains. Extensive evaluations of state-of-the-art LLMs reveal that current models struggle to accurately simulate these complex behaviors, with performance plateauing even as context windows expand. Crucially, a systematic comparison between simulated and authentic behaviors uncovers a fundamental structural bias: LLMs tend to converge toward a positive average person, exhibiting hyper-activity, persona homogenization, and a Utopian bias. This results in the loss of individual differences and long-tail behaviors, highlighting critical directions for future high-fidelity simulation research.