GateMOT: Q-Gated Attention for Dense Object Tracking

📄 arXiv: 2604.26353v1 📥 PDF

作者: Mingjin Lv, Zelin Liu, Feifei Shao, Yi-Ping Phoebe Chen, Junqing Yu, Wei Yang, Zikai Song

分类: cs.CV

发布日期: 2026-04-29


💡 一句话要点

提出Q-Gated Attention的GateMOT,解决密集物体跟踪中高分辨率特征的计算瓶颈。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 密集物体跟踪 注意力机制 运动估计 多任务学习 在线跟踪 Q-Gated Attention 目标检测 特征表示

📋 核心要点

  1. 传统Attention机制计算复杂度高,难以直接应用于高分辨率特征的密集物体跟踪。
  2. 提出Q-Gated Attention,将Query转化为可学习的门控单元,实现高效相关性选择。
  3. GateMOT在BEE24数据集上取得了SOTA的HOTA、MOTA和IDF1指标,验证了有效性。

📝 摘要(中文)

大型模型展示了 vanilla attention 强大的表征能力,但这种核心机制无法直接应用于密集物体跟踪:其二次方的全连接交互对于高分辨率特征上的密集运动估计来说计算成本过高。这种不匹配阻碍了密集物体跟踪在拥挤和遮挡严重的场景中充分利用基于 attention 的建模。为了解决这个挑战,我们引入了 GateMOT,一个以 Q-Gated Attention (Q-Attention) 为中心的在线跟踪框架,Q-Attention 是一种高效且具有空间感知能力的 attention 变体。我们的核心思想是将 Query 从相似性调节项重新用作可学习的门控单元。这个 Gating-Query (Gating-Q) 产生一个概率门,以元素方式调节 Key 特征,从而实现显式的相关性选择,而不是代价高昂的全局聚合。基于这种机制,并行的 Q-Attention 头将一个共享的特征图转换为特定于任务但一致的检测、运动和重识别表示,从而产生一个具有线性复杂度门控操作的紧密耦合的多任务解码器。GateMOT 在 BEE24 上实现了 48.4 的最先进 HOTA、67.8 的 MOTA 和 64.5 的 IDF1,并在其他密集物体跟踪基准测试中表现出强大的性能。这些结果表明,Q-Attention 是在密集跟踪场景中进行基于 attention 的跟踪的一个简单、有效且可转移的构建块。

🔬 方法详解

问题定义:密集物体跟踪需要在高分辨率特征图上进行运动估计,传统Attention机制的全连接交互导致计算量巨大,难以应用。现有方法难以在拥挤和遮挡场景中充分利用Attention机制的建模能力。

核心思路:将Attention机制中的Query部分重新设计为可学习的门控单元(Gating-Q)。Gating-Q生成一个概率门,用于对Key特征进行元素级别的选择性过滤,从而避免了全局聚合带来的高计算复杂度。这种设计使得模型能够关注与当前目标相关的特征,抑制无关信息。

技术框架:GateMOT是一个在线跟踪框架,其核心是Q-Gated Attention (Q-Attention)模块。该框架包含以下主要模块:特征提取网络(共享特征图)、并行的Q-Attention头(分别用于检测、运动估计和重识别)、多任务解码器(将不同任务的输出进行融合)。整体流程是:输入图像经过特征提取网络得到共享特征图,然后通过并行的Q-Attention头得到特定任务的特征表示,最后通过多任务解码器进行目标检测、运动估计和重识别。

关键创新:最重要的创新点在于Q-Gated Attention机制。与传统Attention机制不同,Q-Attention将Query转化为可学习的门控单元,实现了线性复杂度的相关性选择。这种设计避免了全局聚合,大大降低了计算成本,使得Attention机制能够应用于高分辨率特征的密集物体跟踪。

关键设计:Gating-Q的设计是关键。它通过学习得到一个概率门,用于对Key特征进行元素级别的加权。具体实现中,可以使用sigmoid函数将Gating-Q的输出映射到0到1之间,作为每个Key特征的权重。损失函数方面,可以使用多任务学习的损失函数,例如检测损失、运动估计损失和重识别损失的加权和。网络结构方面,可以采用并行的Q-Attention头,每个头负责一个特定任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GateMOT在BEE24数据集上取得了显著的性能提升,HOTA指标达到48.4,MOTA指标达到67.8,IDF1指标达到64.5,均达到了SOTA水平。此外,该方法在其他密集物体跟踪基准测试中也表现出强大的性能,验证了Q-Attention的有效性和泛化能力。

🎯 应用场景

GateMOT具有广泛的应用前景,例如智能交通监控、自动驾驶、机器人导航、视频分析等领域。该方法能够有效提升在拥挤和遮挡场景下的物体跟踪性能,具有重要的实际应用价值。未来可以进一步探索Q-Attention在其他视觉任务中的应用,例如图像分割、目标检测等。

📄 摘要(原文)

While large models demonstrate the strong representational power of vanilla attention, this core mechanism cannot be directly applied to Dense Object Tracking: its quadratic all-to-all interactions are computationally prohibitive for dense motion estimation on high-resolution features. This mismatch prevents Dense Object Tracking from fully leveraging attention-based modeling in crowded and occlusion-heavy scenes. To address this challenge, we introduce GateMOT, an online tracking framework centered on Q-Gated Attention (Q-Attention), an efficient and spatially aware attention variant. Our key idea is to repurpose the Query from a similarity-conditioning term into a learnable gating unit. This Gating-Query (Gating-Q) produces a probabilistic gate that modulates Key features in an element-wise manner, enabling explicit relevance selection instead of costly global aggregation. Built on this mechanism, parallel Q-Attention heads transform one shared feature map into task-specific yet consistent representations for detection, motion, and re-identification, yielding a tightly coupled multi-task decoder with linear-complexity gating operations. GateMOT achieves state-of-the-art HOTA of 48.4, MOTA of 67.8, and IDF1 of 64.5 on BEE24, and demonstrates strong performance on additional Dense Object Tracking benchmarks. These results show that Q-Attention is a simple, effective, and transferable building block for attention-based tracking in dense tracking scenarios.