From Narrative to Action: A Hierarchical LLM-Agent Framework for Human Mobility Generation
作者: Qiumeng Li, Chunhou Ji, Xinyue Liu
分类: cs.MA, cs.AI, cs.CY
发布日期: 2025-10-28
备注: 47 pages, 3 figures
💡 一句话要点
提出 Narrative-to-Action 框架,利用分层 LLM 智能体生成更符合人类认知逻辑的出行模式。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 出行模式生成 大型语言模型 智能体 认知建模 城市交通
📋 核心要点
- 现有出行模式生成方法难以捕捉人类行为的语义连贯性和因果逻辑,缺乏对出行决策背后认知层级的建模。
- 提出 Narrative-to-Action 框架,通过分层 LLM 智能体模拟人类认知过程,实现从叙事到行动的出行模式生成。
- 该框架生成了与真实世界模式紧密对齐的合成轨迹,并提供了人类决策逻辑的可解释表示,提升了出行模式模拟的认知合理性。
📝 摘要(中文)
为了理解和复现人类出行行为,不仅需要时空上的准确性,还需要理解现实世界出行决策背后的认知层级。传统的基于智能体或深度学习的模型可以重现移动的统计模式,但无法捕捉人类行为的语义连贯性和因果逻辑。大型语言模型(LLM)显示出潜力,但难以平衡创造性推理与严格的结构合规性。本研究提出了一个分层 LLM 智能体框架,称为 Narrative-to-Action,它在一个统一的认知层级中集成了高层次的叙事推理、中层次的反思性规划和低层次的行为执行。在宏观层面,一个智能体被用作“创意写作者”来生成富含动机和背景的日记式叙述,然后使用另一个智能体作为“结构解析器”将叙述转换为机器可读的计划。一个动态执行模块进一步将智能体置于地理环境中,并通过一种新颖的职业感知指标——职业移动熵(MEO)来支持自适应行为调整,该指标捕捉了不同职业个性的异质性时间安排灵活性。在微观层面,智能体通过与环境模拟交互来执行具体的行动——选择地点、交通方式和时间间隔。通过嵌入这种多层认知过程,该框架不仅生成了与真实世界模式紧密对齐的合成轨迹,而且还生成了人类决策逻辑的可解释表示。这项研究将合成移动生成从数据驱动的范式推进到认知驱动的模拟,为通过分层 LLM 智能体理解、预测和合成复杂的城市移动行为提供了一条可扩展的途径。
🔬 方法详解
问题定义:现有出行模式生成方法,如基于智能体或深度学习的模型,主要关注统计模式的复现,忽略了人类出行决策的认知过程,导致生成的出行模式缺乏语义连贯性和因果逻辑。现有方法难以解释人类行为背后的动机和意图,限制了其在复杂城市环境中的应用。
核心思路:该论文的核心思路是将人类出行决策过程建模为一个分层认知过程,利用大型语言模型(LLM)的推理能力,从高层次的叙事推理到低层次的行为执行,逐步生成出行模式。通过模拟人类的认知过程,可以生成更符合人类行为逻辑的出行模式。
技术框架:Narrative-to-Action 框架包含三个主要模块:叙事生成模块、计划解析模块和动态执行模块。叙事生成模块使用 LLM 作为“创意写作者”生成包含出行动机和背景的日记式叙述;计划解析模块使用另一个 LLM 作为“结构解析器”将叙述转换为机器可读的出行计划;动态执行模块将智能体置于地理环境中,根据出行计划和环境信息执行具体的出行行为,并根据职业移动熵(MEO)进行自适应调整。
关键创新:该论文的关键创新在于提出了一个分层的 LLM 智能体框架,将人类出行决策过程建模为一个认知层级结构,并利用 LLM 的推理能力生成更符合人类行为逻辑的出行模式。此外,提出了职业移动熵(MEO)这一指标,用于衡量不同职业人群的时间安排灵活性,从而实现更精细的出行行为模拟。
关键设计:在叙事生成模块中,使用了特定的 prompt 工程来引导 LLM 生成包含丰富信息的叙述。在计划解析模块中,设计了特定的结构化输出格式,以便将叙述转换为机器可读的出行计划。在动态执行模块中,使用了强化学习等方法来优化智能体的出行决策,并根据 MEO 指标进行奖励或惩罚。
🖼️ 关键图片
📊 实验亮点
该研究提出的 Narrative-to-Action 框架能够生成与真实世界模式紧密对齐的合成轨迹,并提供了人类决策逻辑的可解释表示。通过与传统方法对比,该框架在出行模式的合理性和可解释性方面取得了显著提升。具体性能数据(如轨迹相似度、出行目的准确率等)未知。
🎯 应用场景
该研究成果可应用于城市规划、交通管理、应急响应等领域。通过模拟不同人群的出行模式,可以预测交通拥堵、评估交通政策的影响、优化公共交通线路,并为突发事件的疏散提供决策支持。此外,该框架还可以用于个性化出行推荐、智能导航等应用,提升用户出行体验。
📄 摘要(原文)
Understanding and replicating human mobility requires not only spatial-temporal accuracy but also an awareness of the cognitive hierarchy underlying real-world travel decisions. Traditional agent-based or deep learning models can reproduce statistical patterns of movement but fail to capture the semantic coherence and causal logic of human behavior. Large language models (LLMs) show potential, but struggle to balance creative reasoning with strict structural compliance. This study proposes a Hierarchical LLM-Agent Framework, termed Narrative-to-Action, that integrates high-level narrative reasoning, mid-level reflective planning, and low-level behavioral execution within a unified cognitive hierarchy. At the macro level, one agent is employed as a "creative writer" to produce diary-style narratives rich in motivation and context, then uses another agent as a "structural parser" to convert narratives into machine-readable plans. A dynamic execution module further grounds agents in geographic environments and enables adaptive behavioral adjustments guided by a novel occupation-aware metric, Mobility Entropy by Occupation (MEO), which captures heterogeneous schedule flexibility across different occupational personalities. At the micro level, the agent executes concrete actions-selecting locations, transportation modes, and time intervals-through interaction with an environmental simulation. By embedding this multi-layer cognitive process, the framework produces not only synthetic trajectories that align closely with real-world patterns but also interpretable representations of human decision logic. This research advances synthetic mobility generation from a data-driven paradigm to a cognition-driven simulation, providing a scalable pathway for understanding, predicting, and synthesizing complex urban mobility behaviors through hierarchical LLM agents.