Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

📄 arXiv: 2603.08199v1 📥 PDF

作者: Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun

分类: cs.CV, cs.RO

发布日期: 2026-03-09


💡 一句话要点

Fusion-Poly:基于时空融合的3D多目标跟踪多面体框架

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D多目标跟踪 时空融合 LiDAR-camera融合 异步数据处理 频率感知

📋 核心要点

  1. 现有LiDAR-camera 3D MOT方法受限于传感器异步问题,通常仅在同步时间戳进行空间融合,导致大量异步观测数据未被充分利用。
  2. Fusion-Poly通过在同步时间戳融合多模态观测,在异步时间戳融合单模态观测,实现更高频率的轨迹更新,从而解决异步问题。
  3. Fusion-Poly在nuScenes数据集上取得了76.5%的AMOTA,超越了现有方法,并通过消融实验验证了各模块的有效性。

📝 摘要(中文)

本文提出Fusion-Poly,一个用于3D多目标跟踪(MOT)的时空融合框架,旨在整合异步的激光雷达(LiDAR)和相机数据。现有方法通常同步异构传感器数据流,并在降低的共享频率下进行标注,导致空间融合仅在同步时间戳进行。Fusion-Poly通过在同步时间戳将轨迹与多模态观测关联,并在异步时间戳将轨迹与单模态观测关联,从而实现更高频率的运动和存在状态更新。该框架包含频率感知级联匹配模块、频率感知轨迹估计模块和全状态观测对齐模块。在nuScenes测试集上,Fusion-Poly实现了76.5%的AMOTA,在基于检测的3D MOT方法中达到了新的state-of-the-art。大量的消融研究进一步验证了每个组件的有效性。

🔬 方法详解

问题定义:现有LiDAR-camera 3D多目标跟踪方法主要依赖于同步后的数据进行融合,忽略了异步数据中蕴含的信息,导致轨迹更新频率受限,影响跟踪的鲁棒性和准确性。现有方法的痛点在于无法有效利用异步传感器数据进行轨迹维护和状态估计。

核心思路:Fusion-Poly的核心思路是充分利用异步的LiDAR和相机数据,通过频率感知的匹配和轨迹估计,实现更高频率的轨迹更新。它将同步时间戳的多模态信息和异步时间戳的单模态信息都纳入到轨迹维护过程中,从而更准确地估计目标的状态。

技术框架:Fusion-Poly框架包含三个主要模块:1) 频率感知级联匹配模块:根据可用检测模态自适应地处理同步和异步帧;2) 频率感知轨迹估计模块:通过高频率的运动预测、差分更新和置信度校准的生命周期管理来维护轨迹;3) 全状态观测对齐模块:通过优化图像投影误差来提高同步时间戳的跨模态一致性。整体流程是先进行检测,然后通过频率感知级联匹配将检测结果与现有轨迹关联,再利用频率感知轨迹估计模块更新轨迹状态,最后通过全状态观测对齐模块优化跨模态一致性。

关键创新:Fusion-Poly的关键创新在于提出了一个统一的时空融合框架,能够同时处理同步和异步的传感器数据。它通过频率感知的匹配和轨迹估计,实现了更高频率的轨迹更新,从而提高了跟踪的鲁棒性和准确性。与现有方法相比,Fusion-Poly能够更充分地利用传感器数据,从而获得更准确的跟踪结果。

关键设计:频率感知级联匹配模块的设计考虑了不同模态数据的可用性,采用级联匹配策略,优先匹配置信度高的检测结果。频率感知轨迹估计模块采用卡尔曼滤波等方法进行运动预测和状态更新,并根据置信度调整轨迹的生命周期。全状态观测对齐模块通过最小化图像投影误差来优化跨模态一致性,例如可以使用迭代最近点(ICP)算法或光束法平差(Bundle Adjustment)等方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Fusion-Poly在nuScenes测试集上取得了76.5%的AMOTA,显著超越了现有的基于检测的3D MOT方法,确立了新的state-of-the-art。消融实验表明,频率感知级联匹配模块、频率感知轨迹估计模块和全状态观测对齐模块均对性能提升有贡献,验证了各个模块的有效性。

🎯 应用场景

Fusion-Poly在自动驾驶、机器人导航、智能交通等领域具有广泛的应用前景。通过更准确和鲁棒的3D多目标跟踪,可以提高自动驾驶系统的感知能力,增强机器人对周围环境的理解,并为智能交通系统提供更可靠的交通参与者信息,从而提升安全性与效率。

📄 摘要(原文)

LiDAR-camera 3D multi-object tracking (MOT) combines rich visual semantics with accurate depth cues to improve trajectory consistency and tracking reliability. In practice, however, LiDAR and cameras operate at different sampling rates. To maintain temporal alignment, existing data pipelines usually synchronize heterogeneous sensor streams and annotate them at a reduced shared frequency, forcing most prior methods to perform spatial fusion only at synchronized timestamps through projection-based or learnable cross-sensor association. As a result, abundant asynchronous observations remain underexploited, despite their potential to support more frequent association and more robust trajectory estimation over short temporal intervals. To address this limitation, we propose Fusion-Poly, a spatial-temporal fusion framework for 3D MOT that integrates asynchronous LiDAR and camera data. Fusion-Poly associates trajectories with multi-modal observations at synchronized timestamps and with single-modal observations at asynchronous timestamps, enabling higher-frequency updates of motion and existence states. The framework contains three key components: a frequency-aware cascade matching module that adapts to synchronized and asynchronous frames according to available detection modalities; a frequency-aware trajectory estimation module that maintains trajectories through high-frequency motion prediction, differential updates, and confidence-calibrated lifecycle management; and a full-state observation alignment module that improves cross-modal consistency at synchronized timestamps by optimizing image-projection errors. On the nuScenes test set, Fusion-Poly achieves 76.5% AMOTA, establishing a new state of the art among tracking-by-detection 3D MOT methods. Extensive ablation studies further validate the effectiveness of each component. Code will be released.