Social-Mamba: Socially-Aware Trajectory Forecasting with State-Space Models

📄 arXiv: 2605.15424v1 📥 PDF

作者: Po-Chien Luan, Wuyang Li, Yang Gao, Alexandre Alahi

分类: cs.CV

发布日期: 2026-05-14

🔗 代码/项目: GITHUB


💡 一句话要点

提出Social-Mamba,利用状态空间模型高效预测人群轨迹,解决社交互动建模难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 轨迹预测 社交互动 状态空间模型 Mamba 人群行为 深度学习 计算效率

📋 核心要点

  1. 现有轨迹预测方法在密集人群中建模社交互动时,依赖注意力机制,计算成本随邻居数量呈二次方增长,效率低下。
  2. Social-Mamba将社交互动视为结构化的顺序过程,利用Cycle Mamba块实现双向信息流,并通过社交三重分解动态集成信息。
  3. 实验表明,Social-Mamba在多个轨迹预测基准上实现了最先进的准确性,同时具有更高的参数效率和计算可扩展性。

📝 摘要(中文)

人类轨迹预测对于拥挤环境中的安全导航至关重要,需要模型在准确性和计算效率之间取得平衡。高效地建模社交互动是提高密集人群性能的关键。然而,大多数最新方法依赖于注意力机制,该机制在捕获复杂依赖关系方面有效,但会产生二次计算成本,随着邻居数量的增加,其扩展性较差。最近,选择性状态空间模型提供了一种线性时间替代方案;然而,它们固有的顺序设计与社交互动非结构化和动态的本质不符。为了应对这一挑战,我们提出了一种预测架构Social-Mamba,该架构将社交互动重新定义为结构化的顺序过程。其核心是Cycle Mamba块,这是一个新颖的模块,可以实现连续的双向信息流。Social-Mamba在以自我为中心的网格上组织智能体,并引入社交三重分解,将交互分解为时间、以自我为中心和以目标为中心的扫描。这些通过可学习的社交门和全局扫描动态集成,以生成准确而有效的轨迹预测。在五个轨迹预测基准上的大量实验表明,Social-Mamba实现了最先进的准确性,同时提供了卓越的参数效率和计算可扩展性。此外,将Social-Mamba嵌入到流匹配框架中进一步提高了准确性和效率,使其成为未来轨迹预测研究的灵活而强大的基础。代码已公开发布。

🔬 方法详解

问题定义:论文旨在解决人群轨迹预测中,现有方法在建模社交互动时计算效率低下的问题。特别是,基于注意力机制的方法在密集人群中面临着计算复杂度随人数增加而呈平方增长的挑战,限制了其在实际场景中的应用。此外,现有的状态空间模型虽然具有线性复杂度,但其固有的顺序设计与社交互动的非结构化和动态特性不符。

核心思路:论文的核心思路是将社交互动重新建模为结构化的顺序过程,并利用状态空间模型(特别是Mamba架构)的优势,实现高效的轨迹预测。通过引入Cycle Mamba块,实现连续的双向信息流,从而更好地捕捉社交互动中的复杂依赖关系。同时,采用社交三重分解,将交互分解为时间、自我中心和目标中心扫描,从而更全面地理解社交场景。

技术框架:Social-Mamba的整体架构包括以下几个主要模块:1) Egocentric Grid Representation: 将智能体组织在以自我为中心的网格上,方便局部社交信息的提取。2) Social Triplet Factorization: 将社交互动分解为时间、自我中心和目标中心三个维度进行扫描。3) Cycle Mamba Block: 利用Mamba架构进行序列建模,并通过循环连接实现双向信息流动。4) Social Gate and Global Scan: 使用可学习的社交门动态集成不同维度的信息,并通过全局扫描捕捉全局上下文。5) Trajectory Decoder: 将编码后的社交信息解码为预测的轨迹。

关键创新:Social-Mamba的关键创新在于:1) Cycle Mamba Block: 通过循环连接扩展了Mamba架构,使其能够处理社交互动中的双向信息流。2) Social Triplet Factorization: 将社交互动分解为三个维度,从而更全面地捕捉社交场景的复杂性。3) Learnable Social Gate: 动态地集成不同维度的信息,从而更好地适应不同的社交场景。与现有方法的本质区别在于,Social-Mamba利用状态空间模型实现了线性复杂度的社交互动建模,避免了注意力机制的二次计算成本。

关键设计:Social-Mamba的关键设计包括:1) Cycle Mamba Block的循环连接方式: 具体如何实现双向信息流动,例如采用何种循环结构。2) Social Triplet Factorization的具体实现: 如何定义时间、自我中心和目标中心扫描,以及如何提取这些维度上的特征。3) Social Gate的结构和训练方式: 如何设计社交门,以及如何训练它以动态地集成不同维度的信息。4) 损失函数的设计: 除了轨迹预测的损失外,是否引入了其他辅助损失来提高模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Social-Mamba在五个轨迹预测基准上取得了最先进的性能,同时具有更高的参数效率和计算可扩展性。具体而言,与基于注意力机制的方法相比,Social-Mamba在保持甚至提高预测精度的同时,显著降低了计算成本。此外,将Social-Mamba嵌入到流匹配框架中进一步提高了准确性和效率,证明了其作为轨迹预测基础模型的潜力。

🎯 应用场景

Social-Mamba在自动驾驶、社交机器人、人群监控、游戏AI等领域具有广泛的应用前景。它可以帮助自动驾驶车辆更好地理解周围行人的行为,从而做出更安全、更合理的决策。在社交机器人领域,它可以使机器人能够更自然地与人互动。在人群监控领域,它可以用于预测人群的移动趋势,从而提前预警潜在的风险。在游戏AI领域,它可以使游戏中的角色更加智能和逼真。

📄 摘要(原文)

Human trajectory forecasting is crucial for safe navigation in crowded environments, requiring models that balance accuracy with computational efficiency. Efficiently modeling social interactions is key to performance in dense crowds. Yet, most recent methods rely on attention mechanisms, which are effective at capturing complex dependencies, but incur quadratic computational costs that scale poorly with the growing number of neighbors. Recently, Selective State-Space Models have provided a linear-time alternative; however, their inherently sequential design is misaligned with the unstructured and dynamic nature of social interactions. To address this challenge, we propose Social-Mamba, a forecasting architecture that reformulates social interactions as structured sequential processes. At its core is the Cycle Mamba block, a novel module that enables continuous bidirectional information flow. Social-Mamba organizes agents on an egocentric grid and introduces social triplet factorization, which decomposes interactions into temporal, egocentric, and goal-centric scans. These are dynamically integrated through a learnable social gate and global scan to generate accurate and efficient trajectory predictions. Extensive experiments on five trajectory forecasting benchmarks show that Social-Mamba achieves state-of-the-art accuracy while offering superior parameter efficiency and computational scalability. Furthermore, embedding Social-Mamba into a flow-matching framework further enhances both accuracy and efficiency, establishing it as a flexible and robust foundation for future trajectory forecasting research. The code is publicly available: https://github.com/vita-epfl/Social-Mamba