Hypergraph-State Collaborative Reasoning for Multi-Object Tracking

📄 arXiv: 2604.12665v1 📥 PDF

作者: Zikai Song, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang, Xinchao Wang

分类: cs.CV

发布日期: 2026-04-14


💡 一句话要点

提出HyperSSM框架,通过超图状态协同推理解决多目标跟踪中的运动估计难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 多目标跟踪 运动估计 超图 状态空间模型 协同推理

📋 核心要点

  1. 现有MOT方法在噪声预测和遮挡情况下表现不佳,导致轨迹不稳定和断裂。
  2. 提出协同推理框架,利用相似运动状态对象间的相互约束,稳定轨迹并推断遮挡下的运动连续性。
  3. 设计HyperSSM架构,结合超图计算和状态空间模型,在多个数据集上取得SOTA性能。

📝 摘要(中文)

运动推理是多目标跟踪(MOT)的基石,它能够实现跨帧目标的一致关联。然而,现有的运动估计方法面临两个主要限制:(1)由噪声或概率性预测引起的不稳定性,以及(2)遮挡下的脆弱性,一旦视觉线索消失,轨迹经常会断裂。为了克服这些问题,我们提出了一种协同推理框架,通过多个相关对象之间的联合推理来增强运动估计。通过允许具有相似运动状态的对象相互约束和细化,我们的框架稳定了噪声轨迹,甚至在目标被遮挡时也能推断出合理的运动连续性。为了实现这一概念,我们设计了HyperSSM,一种集成了超图计算和状态空间模型(SSM)的架构,用于统一的时空推理。超图模块通过动态超边捕获空间运动相关性,而SSM通过结构化状态转换强制时间平滑性。这种协同设计能够同时优化空间共识和时间一致性,从而实现鲁棒和稳定的运动估计。在涵盖各种运动模式和场景复杂性的四个主流和多样化基准(MOT17、MOT20、DanceTrack和SportsMOT)上进行的大量实验表明,我们的方法在各种跟踪场景中都取得了最先进的性能。

🔬 方法详解

问题定义:多目标跟踪中的运动估计是关键,但现有方法容易受到噪声和遮挡的影响。噪声预测导致轨迹不稳定,而遮挡则会导致轨迹断裂,难以维持目标的长期跟踪。现有方法缺乏对多个目标之间运动相关性的有效利用,无法在信息不足的情况下进行合理的运动推断。

核心思路:核心思想是利用多个目标之间的运动相关性进行协同推理。通过让具有相似运动状态的目标相互约束和细化,可以有效地稳定噪声轨迹,并在目标被遮挡时推断出合理的运动连续性。这种协同推理能够提升运动估计的鲁棒性和准确性。

技术框架:整体架构是HyperSSM,它包含两个主要模块:超图模块和状态空间模型(SSM)。超图模块负责捕获空间运动相关性,通过动态超边连接具有相似运动状态的目标。SSM则负责强制时间平滑性,通过结构化的状态转移来保证轨迹的连续性。这两个模块协同工作,实现空间共识和时间一致性的优化。

关键创新:关键创新在于将超图计算和状态空间模型集成到一个统一的框架中,用于多目标跟踪的运动估计。超图模块能够灵活地建模多个目标之间的复杂关系,而SSM则能够有效地利用时间信息。这种集成使得HyperSSM能够同时优化空间和时间维度上的信息,从而实现更鲁棒和准确的运动估计。

关键设计:超图模块使用动态超边来表示目标之间的运动相关性,超边的权重可以根据目标之间的运动相似度进行调整。状态空间模型使用卡尔曼滤波器来预测和更新目标的状态,并使用观测模型将视觉信息融入到状态估计中。损失函数包括运动平滑损失、关联损失和超图一致性损失,用于优化模型的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MOT17、MOT20、DanceTrack和SportsMOT四个数据集上进行了大量实验,结果表明该方法在多个指标上都取得了SOTA性能。例如,在MOT17数据集上,该方法在IDF1指标上取得了显著提升,表明其在长期跟踪方面具有优势。实验结果验证了该方法在各种跟踪场景中的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航等领域。通过提升多目标跟踪的鲁棒性和准确性,可以改善这些应用在复杂环境下的性能,例如在拥挤场景中更准确地跟踪行人,或在遮挡情况下保持对车辆的跟踪。该方法还有潜力扩展到其他需要目标关联和运动估计的任务中。

📄 摘要(原文)

Motion reasoning serves as the cornerstone of multi-object tracking (MOT), as it enables consistent association of targets across frames. However, existing motion estimation approaches face two major limitations: (1) instability caused by noisy or probabilistic predictions, and (2) vulnerability under occlusion, where trajectories often fragment once visual cues disappear. To overcome these issues, we propose a collaborative reasoning framework that enhances motion estimation through joint inference among multiple correlated objects. By allowing objects with similar motion states to mutually constrain and refine each other, our framework stabilizes noisy trajectories and infers plausible motion continuity even when target is occluded. To realize this concept, we design HyperSSM, an architecture that integrates Hypergraph computation and a State Space Model (SSM) for unified spatial-temporal reasoning. The Hypergraph module captures spatial motion correlations through dynamic hyperedges, while the SSM enforces temporal smoothness via structured state transitions. This synergistic design enables simultaneous optimization of spatial consensus and temporal coherence, resulting in robust and stable motion estimation. Extensive experiments on four mainstream and diverse benchmarks(MOT17, MOT20, DanceTrack, and SportsMOT) covering various motion patterns and scene complexities, demonstrate that our approach achieves state-of-the-art performance across a wide range of tracking scenarios.