HDST-GNN: Heterogeneous Dynamic Spatiotemporal Graph Neural Networks for Multi-Object Tracking in UAV Aerial Imagery

📄 arXiv: 2606.05587v1 📥 PDF

作者: Phillip Jiang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-06-04

备注: 18 pages, 4 figures, 6 tables


💡 一句话要点

提出HDST-GNN以解决无人机图像中的多目标跟踪问题

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 多目标跟踪 图神经网络 无人机图像 遮挡处理 动态时空图 异构表示 深度学习

📋 核心要点

  1. 无人机图像中的多目标跟踪面临高度变化、目标密集和遮挡频繁等挑战,现有方法无法有效处理这些问题。
  2. HDST-GNN通过高度自适应边构建、异构节点表示和遮挡门控时间聚合等创新设计,提升了多目标跟踪的准确性和鲁棒性。
  3. 在VisDrone2019-MOT数据集上,HDST-GNN的MOTA达到94.51%,IDF1达到97.24%,显著优于现有方法SORT,减少身份切换81%。

📝 摘要(中文)

无人机图像中的多目标跟踪(MOT)面临独特挑战:高度变化、目标小且密集、频繁遮挡导致身份切换。现有基于图的跟踪器假设固定空间上下文,并将所有目标视为统一,忽视了检测、活跃轨迹和丢失目标的异构生命周期状态。我们提出了HDST-GNN,一种异构动态时空图神经网络,具有三项创新贡献:首先,高度自适应边构建根据目标平均面积估计相机高度代理,并相应调整图连接半径;其次,异构节点表示将检测(Type-D)、确认轨迹(Type-T)和丢失轨迹(Type-L)建模为不同节点类型,具有专门的投影和类型边关系;最后,遮挡门控时间聚合通过遮挡置信度对每个节点的注意力贡献进行门控,防止遮挡节点破坏邻居嵌入。HDST-GNN在VisDrone2019-MOT上以oracle检测训练,达到了94.51%的MOTA和97.24%的IDF1,超越SORT 5.0 MOTA点,并减少身份切换81%。使用真实的YOLOv8n检测,HDST-GNN相比SORT减少了49%的身份切换。消融研究确认了每个组件的独立贡献。

🔬 方法详解

问题定义:本论文旨在解决无人机图像中的多目标跟踪问题,现有方法在处理高度变化、目标密集和遮挡时存在明显不足,导致身份切换频繁。

核心思路:HDST-GNN的核心思路是通过构建异构动态时空图,针对不同生命周期状态的目标采用不同的节点表示和边关系,从而提高跟踪的准确性和稳定性。

技术框架:HDST-GNN的整体架构包括三个主要模块:高度自适应边构建、异构节点表示和遮挡门控时间聚合。首先,通过目标的平均面积估计相机高度并调整图的连接半径;其次,针对不同类型的节点(检测、确认轨迹和丢失轨迹)进行专门的表示;最后,通过遮挡置信度对节点的注意力贡献进行门控。

关键创新:HDST-GNN的主要创新在于其异构节点表示和遮挡门控机制,这与现有方法将所有目标视为统一的处理方式有本质区别,能够更好地适应复杂的跟踪环境。

关键设计:HDST-GNN采用了可微分的Sinkhorn头,结合交叉熵损失和三元组损失进行端到端训练,确保了模型的有效性和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HDST-GNN在VisDrone2019-MOT数据集上取得了94.51%的MOTA和97.24%的IDF1,超越了SORT 5.0 MOTA点,并减少了81%的身份切换。在使用真实YOLOv8n检测时,HDST-GNN也减少了49%的身份切换,显示出其在实际应用中的优越性。

🎯 应用场景

该研究的潜在应用领域包括无人机监控、交通管理和灾害响应等场景,能够有效提升多目标跟踪的准确性和实时性,具有重要的实际价值和广泛的应用前景。未来,HDST-GNN可能在更复杂的动态环境中发挥更大作用,推动无人机技术的发展。

📄 摘要(原文)

Multi-object tracking (MOT) from UAV imagery presents unique challenges: altitude varies across sequences, objects are small and densely packed, and frequent occlusion causes identity switches. Existing graph-based trackers assume fixed spatial context and treat all objects uniformly, ignoring the heterogeneous lifecycle states of detections, active tracklets, and lost targets. We propose HDST-GNN, a Heterogeneous Dynamic Spatiotemporal Graph Neural Network with three novel contributions. First, Altitude-Adaptive Edge Construction estimates a camera-altitude proxy from mean object area and adjusts the graph connectivity radius accordingly. Second, Heterogeneous Node Representation models detections (Type-D), confirmed tracklets (Type-T), and lost tracklets (Type-L) as distinct node types with dedicated projections and typed edge relations. Third, Occlusion-Gated Temporal Aggregation gates each node's attention contribution by its occlusion confidence, preventing occluded nodes from corrupting neighbour embeddings. HDST-GNN is trained end-to-end with a differentiable Sinkhorn head using joint cross-entropy and triplet loss. On VisDrone2019-MOT with oracle detections, HDST-GNN achieves 94.51% MOTA and 97.24% IDF1, outperforming SORT by +5.0 MOTA points and reducing identity switches by 81%. With real YOLOv8n detections, HDST-GNN reduces identity switches by 49% vs. SORT. Ablation studies confirm the independent contribution of each component.