Long-Term Human Trajectory Prediction using 3D Dynamic Scene Graphs

📄 arXiv: 2405.00552v4 📥 PDF

作者: Nicolas Gorlo, Lukas Schmid, Luca Carlone

分类: cs.RO, cs.HC

发布日期: 2024-05-01 (更新: 2024-10-30)

备注: 8 pages, 6 figures. Accepted at IEEE Robotics and Automation Letters (RA-L). Code released at: https://github.com/MIT-SPARK/LP2

期刊: IEEE Robotics and Automation Letters, vol. 9, no. 12, pp. 10978-10985, Dec. 2024

DOI: 10.1109/LRA.2024.3482169


💡 一句话要点

提出基于3D动态场景图的长时程室内人类轨迹预测方法,提升机器人环境交互能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人类轨迹预测 长时程预测 3D动态场景图 大型语言模型 人机交互 机器人规划 连续时间马尔可夫链

📋 核心要点

  1. 现有方法在长时程预测和建模人类与环境的复杂交互方面存在局限性,难以满足机器人长时程规划的需求。
  2. 利用大型语言模型预测人类与环境的交互序列,并将其融入到基于3D动态场景图的轨迹预测中,实现更准确的预测。
  3. 在新的半合成数据集上验证了该方法的有效性,显著降低了预测误差,提升了长时程轨迹预测的性能。

📝 摘要(中文)

本文提出了一种新颖的室内人机交互环境中长时程人类轨迹预测方法,这对于此类环境中的长时程机器人规划至关重要。现有的人类轨迹预测方法主要关注避障和短期规划,并且无法对人类与环境的复杂交互进行建模。为了克服这些局限性,本文的方法通过预测人类与环境的交互序列,并利用这些信息来指导长达60秒的轨迹预测。我们利用大型语言模型(LLM)预测与环境的交互,LLM的预测以场景的丰富上下文信息为条件。这些信息以3D动态场景图的形式给出,该图将环境的几何、语义和可通行性编码为分层表示。然后,我们使用基于连续时间马尔可夫链的概率方法,将这些交互序列转化为人类位置的多模态时空分布。为了评估我们的方法,我们引入了一个新的半合成数据集,该数据集包含复杂室内环境中长时程人类轨迹,并且还包括人类-物体交互的注释。实验结果表明,对于60秒的时间范围,与最佳的非特权(即,在数据集上以零样本方式评估)基线相比,我们的方法实现了平均负对数似然降低54%,最佳20位移误差降低26.5%。

🔬 方法详解

问题定义:论文旨在解决室内环境中长时程(60秒)人类轨迹预测问题。现有方法主要关注短期预测和避障,忽略了人类与环境的复杂交互,导致长时程预测精度不足,无法满足机器人长时程规划的需求。现有方法的痛点在于缺乏对环境语义信息的有效利用和对人类行为意图的准确建模。

核心思路:论文的核心思路是利用大型语言模型(LLM)预测人类与环境的交互序列,并将这些交互信息融入到轨迹预测中。通过3D动态场景图对环境的几何、语义和可通行性进行编码,为LLM提供丰富的上下文信息。然后,利用连续时间马尔可夫链将交互序列转化为人类位置的时空分布,从而实现更准确的长时程轨迹预测。这种设计能够有效利用环境信息,建模人类行为意图,提高预测精度。

技术框架:整体框架包含以下几个主要模块:1) 3D动态场景图构建模块,用于对环境进行建模,提取几何、语义和可通行性信息。2) 基于LLM的交互预测模块,利用场景图信息预测人类与环境的交互序列。3) 基于连续时间马尔可夫链的轨迹预测模块,将交互序列转化为人类位置的时空分布。4) 轨迹生成与评估模块,生成最终的轨迹预测结果,并进行评估。

关键创新:最重要的技术创新点在于将大型语言模型引入到人类轨迹预测中,利用LLM强大的语义理解和推理能力,预测人类与环境的交互序列。与现有方法相比,该方法能够更有效地利用环境信息,建模人类行为意图,从而提高长时程轨迹预测的精度。此外,3D动态场景图的引入也为LLM提供了更丰富的上下文信息。

关键设计:论文中关键的设计包括:1) 3D动态场景图的构建方式,如何有效地编码环境的几何、语义和可通行性信息。2) LLM的prompt设计,如何将场景图信息有效地输入到LLM中,并引导LLM预测交互序列。3) 连续时间马尔可夫链的建模方式,如何将交互序列转化为人类位置的时空分布。4) 损失函数的设计,如何有效地训练LLM和轨迹预测模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在长时程人类轨迹预测方面取得了显著的性能提升。与最佳的非特权基线相比,该方法在60秒的时间范围内,实现了平均负对数似然降低54%,最佳20位移误差降低26.5%。这些结果表明,该方法能够更准确地预测人类的轨迹,尤其是在长时程预测方面具有显著优势。

🎯 应用场景

该研究成果可应用于服务机器人、自动驾驶、智能监控等领域。例如,服务机器人可以利用该技术预测人类的行为轨迹,从而更好地与人类进行交互和协作。自动驾驶系统可以利用该技术预测行人的行为轨迹,从而提高行驶安全性。智能监控系统可以利用该技术预测人群的移动轨迹,从而更好地进行安全管理和风险预警。该研究具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

We present a novel approach for long-term human trajectory prediction in indoor human-centric environments, which is essential for long-horizon robot planning in these environments. State-of-the-art human trajectory prediction methods are limited by their focus on collision avoidance and short-term planning, and their inability to model complex interactions of humans with the environment. In contrast, our approach overcomes these limitations by predicting sequences of human interactions with the environment and using this information to guide trajectory predictions over a horizon of up to 60s. We leverage Large Language Models (LLMs) to predict interactions with the environment by conditioning the LLM prediction on rich contextual information about the scene. This information is given as a 3D Dynamic Scene Graph that encodes the geometry, semantics, and traversability of the environment into a hierarchical representation. We then ground these interaction sequences into multi-modal spatio-temporal distributions over human positions using a probabilistic approach based on continuous-time Markov Chains. To evaluate our approach, we introduce a new semi-synthetic dataset of long-term human trajectories in complex indoor environments, which also includes annotations of human-object interactions. We show in thorough experimental evaluations that our approach achieves a 54% lower average negative log-likelihood and a 26.5% lower Best-of-20 displacement error compared to the best non-privileged (i.e., evaluated in a zero-shot fashion on the dataset) baselines for a time horizon of 60s.