DECAMP: Towards Scene-Consistent Multi-Agent Motion Prediction with Disentangled Context-Aware Pre-Training

📄 arXiv: 2509.10426v2 📥 PDF

作者: Jianxin Shi, Zengqi Peng, Xiaolong Chen, Tianyu Wo, Jun Ma

分类: cs.RO, cs.MA

发布日期: 2025-09-12 (更新: 2025-09-17)


💡 一句话要点

DECAMP:面向场景一致性的解耦上下文感知多智能体运动预测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 多智能体运动预测 解耦表征学习 上下文感知 自编码器 预训练 自动驾驶 场景一致性

📋 核心要点

  1. 现有轨迹预测方法在多智能体场景中性能不佳,且受限于标注数据稀缺问题。
  2. DECAMP框架解耦行为模式学习和特征重构,提升场景表征,并融入上下文感知学习。
  3. 在Argoverse 2基准测试中,DECAMP展现出优越的性能,验证了其有效性。

📝 摘要(中文)

轨迹预测是自动驾驶的关键组成部分,对于确保道路安全和效率至关重要。然而,传统方法通常面临标注数据稀缺的问题,并且在多智能体预测场景中表现不佳。为了解决这些挑战,我们提出了一种用于多智能体运动预测的解耦上下文感知预训练框架,名为DECAMP。与现有将表征学习与预训练任务纠缠在一起的方法不同,我们的框架将行为模式学习与潜在特征重构解耦,优先考虑可解释的动态,从而增强下游预测的场景表征。此外,我们的框架结合了上下文感知表征学习以及协作空间-运动预训练任务,从而能够联合优化结构和意图推理,同时捕获潜在的动态意图。我们在Argoverse 2基准上的实验展示了我们方法的优越性能,并且所获得的结果强调了其在多智能体运动预测中的有效性。据我们所知,这是自动驾驶中第一个用于多智能体运动预测的上下文自编码器框架。代码和模型将公开提供。

🔬 方法详解

问题定义:论文旨在解决多智能体运动预测中,现有方法难以有效利用上下文信息、场景一致性差,以及对智能体行为意图理解不足的问题。现有方法通常将表征学习与预训练任务耦合,导致学习到的表征难以解释,泛化能力受限。

核心思路:DECAMP的核心思路是将行为模式学习与潜在特征重构解耦,通过解耦的方式,使得模型能够更专注于学习可解释的智能体动态行为,从而提升场景表征的质量。同时,引入上下文感知学习,使模型能够更好地理解智能体之间的交互关系和场景约束。

技术框架:DECAMP框架包含以下主要模块:1) 解耦的自编码器结构,用于分别学习行为模式和潜在特征;2) 上下文感知表征学习模块,用于融合场景信息和智能体之间的关系;3) 协作空间-运动预训练任务,用于联合优化结构和意图推理。整体流程是,首先通过解耦的自编码器进行预训练,然后利用上下文感知模块融合场景信息,最后通过协作预训练任务进一步提升模型性能。

关键创新:DECAMP的关键创新在于解耦的表征学习方式和上下文感知的预训练策略。与现有方法将表征学习与预训练任务耦合不同,DECAMP将两者解耦,使得模型能够更有效地学习智能体的动态行为和场景上下文信息。这是首个用于多智能体运动预测的上下文自编码器框架。

关键设计:在解耦的自编码器中,采用了不同的损失函数来约束行为模式和潜在特征的学习。上下文感知模块利用注意力机制来建模智能体之间的交互关系。协作预训练任务包括空间关系预测和运动意图预测,通过最小化预测误差来优化模型参数。具体的网络结构和参数设置在论文中有详细描述,但此处未给出具体数值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DECAMP在Argoverse 2基准测试中取得了显著的性能提升,证明了解耦上下文感知预训练框架的有效性。具体的数据指标和对比基线在论文中给出,但此处未提供具体数值。实验结果表明,DECAMP能够更准确地预测多智能体的未来轨迹,并更好地理解智能体之间的交互关系。

🎯 应用场景

DECAMP框架可应用于自动驾驶、智能交通系统、机器人导航等领域。通过提升多智能体运动预测的准确性和可靠性,可以提高自动驾驶车辆的安全性,优化交通流量,并增强机器人在复杂环境中的导航能力。该研究对于推动智能交通和机器人技术的发展具有重要意义。

📄 摘要(原文)

Trajectory prediction is a critical component of autonomous driving, essential for ensuring both safety and efficiency on the road. However, traditional approaches often struggle with the scarcity of labeled data and exhibit suboptimal performance in multi-agent prediction scenarios. To address these challenges, we introduce a disentangled context-aware pre-training framework for multi-agent motion prediction, named DECAMP. Unlike existing methods that entangle representation learning with pretext tasks, our framework decouples behavior pattern learning from latent feature reconstruction, prioritizing interpretable dynamics and thereby enhancing scene representation for downstream prediction. Additionally, our framework incorporates context-aware representation learning alongside collaborative spatial-motion pretext tasks, which enables joint optimization of structural and intentional reasoning while capturing the underlying dynamic intentions. Our experiments on the Argoverse 2 benchmark showcase the superior performance of our method, and the results attained underscore its effectiveness in multi-agent motion forecasting. To the best of our knowledge, this is the first context autoencoder framework for multi-agent motion forecasting in autonomous driving. The code and models will be made publicly available.