CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model

📄 arXiv: 2409.07714v3 📥 PDF

作者: Yang Li, Quan Yuan, Guiyang Luo, Xiaoyuan Fu, Xuanhan Zhu, Yujia Yang, Rui Pan, Jinglin Li

分类: cs.CV, cs.MA

发布日期: 2024-09-12 (更新: 2024-11-05)


💡 一句话要点

CollaMamba:提出基于空间-时间状态空间模型的协同感知方法,提升效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 协同感知 状态空间模型 Mamba 多智能体系统 时空建模

📋 核心要点

  1. 现有协同感知方法难以在有限资源下处理长距离时空特征,限制了感知质量。
  2. CollaMamba利用空间和时间状态空间模型,高效建模跨智能体的时空依赖关系。
  3. 实验表明,CollaMamba在提升精度的同时,显著降低了计算和通信开销。

📝 摘要(中文)

多智能体协同感知通过共享互补的感知信息,能够更深入地理解环境。目前协同感知研究主要采用CNN或Transformer学习空间维度上的特征表示和融合,但在有限的计算和通信资源下,难以处理长距离的时空特征。对大范围空间区域和长时间帧进行整体建模对于提高特征质量至关重要。为此,我们提出了一种资源高效的跨智能体空间-时间协同状态空间模型(SSM),名为CollaMamba。首先,我们构建了一个基于空间SSM的基础骨干网络,该网络能够巧妙地从单智能体和跨智能体的角度捕获位置因果依赖关系,从而产生紧凑而全面的中间特征,同时保持线性复杂度。此外,我们设计了一个基于时间SSM的历史感知特征增强模块,从扩展的历史帧中提取上下文线索,以细化模糊特征,同时保持较低的开销。在多个数据集上的大量实验表明,CollaMamba优于最先进的方法,在提高模型精度的同时,将计算和通信开销分别降低了高达71.9%和1/64。这项工作率先探索了Mamba在协同感知中的潜力。源代码将会开源。

🔬 方法详解

问题定义:现有协同感知方法,如基于CNN或Transformer的方法,在处理长距离时空依赖关系时面临挑战,尤其是在计算和通信资源受限的情况下。这些方法难以有效地整合来自不同智能体的历史信息,导致感知性能下降。

核心思路:CollaMamba的核心思路是利用状态空间模型(SSM)高效地建模跨智能体的空间和时间依赖关系。通过空间SSM捕获位置因果依赖,并通过时间SSM提取历史上下文信息,从而提升特征质量,同时保持较低的计算和通信开销。

技术框架:CollaMamba的整体架构包含两个主要模块:1) 基于空间SSM的骨干网络,用于从单智能体和跨智能体的角度捕获位置因果依赖关系,生成紧凑的中间特征;2) 基于时间SSM的历史感知特征增强模块,用于从历史帧中提取上下文信息,细化模糊特征。这两个模块协同工作,实现高效的协同感知。

关键创新:CollaMamba的关键创新在于将状态空间模型(特别是Mamba)引入协同感知领域,并设计了专门的空间和时间SSM模块来处理跨智能体的时空依赖关系。与传统的CNN或Transformer方法相比,CollaMamba能够以更低的计算和通信成本实现更高的感知精度。

关键设计:空间SSM骨干网络采用线性复杂度设计,以保证高效的计算。时间SSM模块则通过历史感知机制,从扩展的历史帧中提取上下文线索,提升特征的鲁棒性。具体的参数设置和网络结构细节将在开源代码中提供(未知)。损失函数的设计也可能针对协同感知任务进行了优化(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CollaMamba在多个数据集上取得了优于现有方法的性能。实验结果表明,CollaMamba在提高模型精度的同时,将计算开销降低了高达71.9%,通信开销降低了1/64。这些显著的性能提升验证了CollaMamba在协同感知任务中的有效性和高效性。

🎯 应用场景

CollaMamba可应用于自动驾驶、机器人集群、智能交通等需要多智能体协同感知的场景。通过提升感知精度和降低资源消耗,该方法能够提高系统的安全性和效率,并促进相关技术的普及和应用。未来,该方法有望扩展到更复杂的协同任务中。

📄 摘要(原文)

By sharing complementary perceptual information, multi-agent collaborative perception fosters a deeper understanding of the environment. Recent studies on collaborative perception mostly utilize CNNs or Transformers to learn feature representation and fusion in the spatial dimension, which struggle to handle long-range spatial-temporal features under limited computing and communication resources. Holistically modeling the dependencies over extensive spatial areas and extended temporal frames is crucial to enhancing feature quality. To this end, we propose a resource efficient cross-agent spatial-temporal collaborative state space model (SSM), named CollaMamba. Initially, we construct a foundational backbone network based on spatial SSM. This backbone adeptly captures positional causal dependencies from both single-agent and cross-agent views, yielding compact and comprehensive intermediate features while maintaining linear complexity. Furthermore, we devise a history-aware feature boosting module based on temporal SSM, extracting contextual cues from extended historical frames to refine vague features while preserving low overhead. Extensive experiments across several datasets demonstrate that CollaMamba outperforms state-of-the-art methods, achieving higher model accuracy while reducing computational and communication overhead by up to 71.9% and 1/64, respectively. This work pioneers the exploration of the Mamba's potential in collaborative perception. The source code will be made available.