S3MOT: Monocular 3D Object Tracking with Selective State Space Model
作者: Zhuohao Yan, Shaoquan Feng, Xingxing Li, Yuxuan Zhou, Chunxi Xia, Shengyu Li
分类: cs.CV, cs.AI
发布日期: 2025-04-25
🔗 代码/项目: GITHUB
💡 一句话要点
S3MOT:基于选择性状态空间模型的单目3D目标跟踪
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 单目3D目标跟踪 数据关联 目标重识别 姿态估计 状态空间模型
📋 核心要点
- 单目3D多目标跟踪面临从2D视频中推断3D时空关联的难题,现有方法难以有效融合异构线索。
- 论文提出匈牙利状态空间模型(HSSM)、全卷积单阶段嵌入(FCOE)和VeloSSM,分别解决数据关联、目标重识别和姿态估计问题。
- 实验结果表明,该方法在KITTI数据集上取得了state-of-the-art的性能,HOTA指标提升显著,验证了其有效性和鲁棒性。
📝 摘要(中文)
本文提出了一种用于单目3D多目标跟踪(MOT)的新方法。由于从2D视频流中挖掘3D时空关联的难度,单目3D MOT仍然是一个巨大的挑战。为此,本文提出了三项创新技术来增强异构线索的融合和利用:(1) 引入匈牙利状态空间模型(HSSM),这是一种新的数据关联机制,可以压缩跨多个路径的上下文跟踪线索,从而以线性复杂度实现高效而全面的分配决策。HSSM具有全局感受野和动态权重,而传统的线性分配算法依赖于手工设计的关联成本。(2) 提出全卷积单阶段嵌入(FCOE),通过直接使用密集特征图进行对比学习来消除ROI池化,从而提高在不同视角和光照等具有挑战性条件下的目标重识别精度。(3) 通过VeloSSM增强6-DoF姿态估计,VeloSSM是一种编码器-解码器架构,可对速度中的时间依赖性进行建模以捕获运动动态,从而克服了基于帧的3D推理的局限性。在KITTI公共测试基准上的实验表明了该方法的有效性,以31 FPS实现了76.86 HOTA的新state-of-the-art性能。该方法优于之前的最佳方法,HOTA提升+2.63,AssA提升+3.62,展示了其在单目3D MOT任务中的鲁棒性和效率。代码和模型可在https://github.com/bytepioneerX/s3mot获取。
🔬 方法详解
问题定义:单目3D多目标跟踪旨在仅使用单目相机估计场景中多个目标在三维空间中的轨迹。现有方法在数据关联、目标重识别和运动估计方面存在挑战。数据关联通常依赖手工设计的代价函数,缺乏全局上下文信息;目标重识别在视角变化和光照变化下表现不佳;基于单帧的3D姿态估计忽略了时间上的运动信息。
核心思路:论文的核心思路是设计三个模块分别解决数据关联、目标重识别和运动估计的难题。HSSM通过学习动态权重和利用全局感受野来提升数据关联的准确性;FCOE通过全卷积方式提取特征,避免了ROI池化带来的信息损失,从而提升目标重识别的鲁棒性;VeloSSM通过对速度信息进行时间建模,提升了3D姿态估计的精度。
技术框架:S3MOT的整体框架包含三个主要模块:(1) HSSM (Hungarian State Space Model):用于数据关联,将检测结果与已有的tracklets进行匹配。(2) FCOE (Fully Convolutional One-stage Embedding):用于目标重识别,提取目标的嵌入特征。(3) VeloSSM:用于6-DoF姿态估计,利用编码器-解码器结构建模速度的时间依赖性。整个流程首先进行目标检测,然后利用FCOE提取特征,再通过HSSM进行数据关联,最后使用VeloSSM进行姿态估计和轨迹更新。
关键创新:论文的关键创新在于三个模块的设计:HSSM通过学习动态权重和利用全局感受野,克服了传统线性分配算法的局限性;FCOE避免了ROI池化,保留了更多的空间信息,提升了目标重识别的精度;VeloSSM通过建模速度的时间依赖性,提升了3D姿态估计的准确性。与现有方法相比,S3MOT能够更有效地融合异构线索,从而提升单目3D MOT的整体性能。
关键设计:HSSM使用匈牙利算法进行数据关联,但其代价矩阵由神经网络学习得到,而非手工设计。FCOE使用对比学习损失函数训练嵌入特征,损失函数的设计考虑了正负样本的选择。VeloSSM使用LSTM网络建模速度的时间依赖性,编码器和解码器的具体结构需要根据实际情况进行调整。论文中还提到了一些超参数的设置,例如学习率、batch size等,这些参数的选择也会影响最终的性能。
🖼️ 关键图片
📊 实验亮点
S3MOT在KITTI数据集上取得了显著的性能提升,HOTA指标达到76.86,超过了之前的state-of-the-art方法2.63个百分点,AssA指标提升了3.62个百分点。此外,该方法在保证较高跟踪精度的同时,还能达到31 FPS的运行速度,具有较好的实用性。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、智能监控等领域。在自动驾驶中,准确的3D目标跟踪可以帮助车辆更好地理解周围环境,从而做出更安全的决策。在机器人导航中,该技术可以帮助机器人更好地感知周围的物体,从而实现更自主的导航。在智能监控中,该技术可以用于跟踪监控区域内的目标,从而提高监控效率。
📄 摘要(原文)
Accurate and reliable multi-object tracking (MOT) in 3D space is essential for advancing robotics and computer vision applications. However, it remains a significant challenge in monocular setups due to the difficulty of mining 3D spatiotemporal associations from 2D video streams. In this work, we present three innovative techniques to enhance the fusion and exploitation of heterogeneous cues for monocular 3D MOT: (1) we introduce the Hungarian State Space Model (HSSM), a novel data association mechanism that compresses contextual tracking cues across multiple paths, enabling efficient and comprehensive assignment decisions with linear complexity. HSSM features a global receptive field and dynamic weights, in contrast to traditional linear assignment algorithms that rely on hand-crafted association costs. (2) We propose Fully Convolutional One-stage Embedding (FCOE), which eliminates ROI pooling by directly using dense feature maps for contrastive learning, thus improving object re-identification accuracy under challenging conditions such as varying viewpoints and lighting. (3) We enhance 6-DoF pose estimation through VeloSSM, an encoder-decoder architecture that models temporal dependencies in velocity to capture motion dynamics, overcoming the limitations of frame-based 3D inference. Experiments on the KITTI public test benchmark demonstrate the effectiveness of our method, achieving a new state-of-the-art performance of 76.86~HOTA at 31~FPS. Our approach outperforms the previous best by significant margins of +2.63~HOTA and +3.62~AssA, showcasing its robustness and efficiency for monocular 3D MOT tasks. The code and models are available at https://github.com/bytepioneerX/s3mot.