On Improving Multimodal Pedestrian Trajectory Prediction with CVAE: A Study on Benchmark and Robot Data

📄 arXiv: 2605.18262v1 📥 PDF

作者: Yuzhou Liu, Cristina Olaverri-Monreal

分类: cs.RO

发布日期: 2026-05-18


💡 一句话要点

基于CVAE的Social-STGCNN用于提升多模态行人轨迹预测,适用于基准数据集和机器人数据。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 行人轨迹预测 多模态预测 条件变分自编码器 社交时空图卷积神经网络 机器人导航

📋 核心要点

  1. 现有行人轨迹预测方法难以生成多样且校准良好的未来轨迹,尤其是在复杂社交互动场景下。
  2. 论文提出基于CVAE的概率模型,结合Social-STGCNN骨干网络,显式建模多模态行人轨迹。
  3. 实验表明,该方法在公共数据集和机器人数据上均能提升轨迹多样性和端点预测精度。

📝 摘要(中文)

精确的行人轨迹预测对于在复杂环境中运行的自主系统至关重要,例如郊区或半结构化区域的模块化巴士和送货机器人。社交时空图卷积神经网络(Social-STGCNN)通过建模社交互动展现了强大的性能;然而,生成多样化且良好校准的未来轨迹仍然具有挑战性。本文以Social-STGCNN为骨干网络,引入了基于条件变分自编码器(CVAE)的概率公式,以显式地建模多模态未来轨迹。该方法在ETH和UCY行人轨迹数据集以及移动机器人收集的真实行人数据集上进行了评估。结果表明,在公共基准测试中获得了适度的收益,但在不同的群体配置中,端点精度更加一致,轨迹多样性也得到了改善。在机器人收集的数据上的评估进一步证明了该方法在精心设计的基准测试之外的有效性,并支持其在实际部署中的适用性。

🔬 方法详解

问题定义:论文旨在解决行人轨迹预测中,现有方法难以生成多样化且准确的未来轨迹的问题。尤其是在复杂社交互动场景下,单一预测结果无法满足实际需求,需要模型能够预测多种可能的未来轨迹。现有方法通常缺乏对多模态特性的有效建模,导致预测结果过于集中或不准确。

核心思路:论文的核心思路是利用条件变分自编码器(CVAE)的概率生成能力,为Social-STGCNN引入多模态预测能力。CVAE能够学习潜在变量的分布,并根据条件信息生成不同的未来轨迹,从而实现对多模态特性的建模。通过将CVAE与Social-STGCNN结合,可以同时利用Social-STGCNN强大的社交互动建模能力和CVAE的多样性生成能力。

技术框架:整体框架包括三个主要模块:Social-STGCNN编码器、CVAE和解码器。首先,Social-STGCNN编码器用于提取行人历史轨迹和社交互动信息,生成一个高维特征向量。然后,该特征向量作为CVAE的条件输入,CVAE学习潜在变量的分布,并从中采样生成不同的潜在向量。最后,解码器将潜在向量解码为未来轨迹。整个过程通过端到端的方式进行训练。

关键创新:论文的关键创新在于将CVAE引入到Social-STGCNN中,从而实现了对多模态未来轨迹的显式建模。与现有方法相比,该方法能够生成更加多样化和准确的未来轨迹,并且能够更好地适应不同的社交互动场景。此外,该方法还在真实机器人数据上进行了验证,证明了其在实际应用中的有效性。

关键设计:CVAE的潜在变量维度是一个关键参数,需要根据数据集的复杂程度进行调整。损失函数包括重构损失和KL散度损失,用于保证生成轨迹的准确性和潜在变量分布的合理性。Social-STGCNN的网络结构采用多层图卷积神经网络,用于捕捉复杂的社交互动关系。在训练过程中,采用了Adam优化器和学习率衰减策略,以提高模型的收敛速度和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在ETH和UCY数据集上取得了适度的性能提升,尤其是在轨迹多样性方面。在机器人收集的真实数据集上,该方法表现出更强的泛化能力和实用性。与基线方法相比,该方法在端点预测精度和轨迹多样性方面均有显著提升。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能监控等领域。通过准确预测行人轨迹,自动驾驶车辆可以更好地规划行驶路线,避免碰撞事故。机器人可以在人群中安全导航,完成配送或引导任务。智能监控系统可以提前预警行人异常行为,提高安全性。

📄 摘要(原文)

Accurate pedestrian trajectory prediction is crucial for autonomous systems operating in complex environments, such as modular buses and delivery robots in suburban or semi-structured areas. Social Spatio-Temporal Graph Convolutional Neural Networks (Social-STGCNN) have shown strong performance by modeling social interactions; however, producing diverse and well-calibrated future trajectories remains challenging. In this work, we build on a Social-STGCNN backbone and introduce a Conditional Variational Autoencoder (CVAE)-based probabilistic formulation to explicitly model multimodal future trajectories. We evaluate the method on the ETH and UCY pedestrian trajectory datasets as well as on a real-world pedestrian dataset collected by a mobile robot. Results show moderate gains on public benchmarks, but more consistent endpoint accuracy and improved trajectory diversity across different crowd configurations. Evaluation on robot-collected data further demonstrates the approach's effectiveness beyond curated benchmarks and supports its applicability in practical deployments.