Training-Free Semantic Multi-Object Tracking with Vision-Language Models

📄 arXiv: 2604.14074v1 📥 PDF

作者: Laurence Bonat, Francesco Tonini, Elisa Ricci, Lorenzo Vaquero

分类: cs.CV

发布日期: 2026-04-15

备注: Accepted to the 20th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2026)


💡 一句话要点

提出TF-SMOT,一种无需训练的语义多目标跟踪框架,提升视频理解能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义多目标跟踪 无需训练 预训练模型 视频理解 视觉语言模型

📋 核心要点

  1. 现有SMOT系统依赖端到端训练,需要大量标注数据,限制了其在新模型和交互上的快速适应性。
  2. TF-SMOT通过组合预训练的检测、跟踪和视频-语言生成模型,构建无需训练的SMOT流水线。
  3. TF-SMOT在BenSMOT数据集上取得了领先的跟踪性能,并提升了视频摘要和字幕的质量。

📝 摘要(中文)

本文提出了一种无需训练的语义多目标跟踪(SMOT)流水线TF-SMOT,旨在通过组合预训练组件实现视频场景的动态理解,包括视频摘要、实例级描述和交互标签。TF-SMOT利用D-FINE和可提示的SAM2分割跟踪器生成时间一致的轨迹片段,使用轮廓 grounding 和 InternVideo2.5 生成视频摘要和实例字幕,并通过基于gloss的语义检索和LLM消歧,将提取的交互谓词与BenSMOT WordNet同义词集对齐。在BenSMOT数据集上,TF-SMOT在SMOT设置中实现了最先进的跟踪性能,并提高了摘要和字幕质量。然而,在细粒度和长尾WordNet标签空间上,交互识别在严格的精确匹配评估下仍然具有挑战性;分析表明语义重叠和标签粒度显著影响了测量性能。

🔬 方法详解

问题定义:论文旨在解决语义多目标跟踪(SMOT)中对大量训练数据的依赖问题。现有的SMOT系统通常采用端到端训练,这使得它们难以快速适应新的基础模型和新的交互类型,并且训练成本高昂。

核心思路:论文的核心思路是利用预训练的视觉和语言模型,构建一个无需训练的SMOT流水线。通过组合这些预训练组件,可以避免从头开始训练模型,从而降低了成本并提高了适应性。这种方法的核心在于如何有效地将不同的预训练模型组合在一起,以实现语义多目标跟踪的目标。

技术框架:TF-SMOT的整体框架包含以下几个主要模块:1) 使用D-FINE和SAM2进行mask-based跟踪,生成时间一致的轨迹片段;2) 使用轮廓 grounding 和 InternVideo2.5 生成视频摘要和实例字幕;3) 通过基于gloss的语义检索和LLM消歧,将提取的交互谓词与BenSMOT WordNet同义词集对齐。整个流程无需训练,依赖于预训练模型的强大能力。

关键创新:TF-SMOT的关键创新在于其无需训练的特性。通过巧妙地组合现有的预训练模型,TF-SMOT避免了对大量标注数据的依赖,并实现了与现有方法相当甚至更好的性能。此外,利用LLM进行语义消歧也是一个重要的创新点,可以提高交互识别的准确性。

关键设计:在技术细节方面,TF-SMOT的关键设计包括:1) 使用D-FINE和SAM2进行精确的mask-based跟踪;2) 利用轮廓 grounding 技术将视觉信息与文本描述对齐;3) 使用基于gloss的语义检索和LLM消歧来提高交互识别的准确性。具体的参数设置和网络结构取决于所使用的预训练模型,论文中可能没有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TF-SMOT在BenSMOT数据集上实现了最先进的跟踪性能,并提高了摘要和字幕的质量。虽然交互识别在精确匹配评估下仍然具有挑战性,但分析表明,通过改进语义重叠和标签粒度,可以进一步提高性能。该研究表明,利用预训练模型可以有效地解决SMOT问题,并为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于智能视频监控、自动驾驶、机器人导航等领域。通过提供对动态场景的语义理解,可以实现更高级别的任务,例如自动生成视频摘要、理解人类行为、以及进行人机交互。未来,该技术有望在视频内容分析、智能安防和人机协作等领域发挥重要作用。

📄 摘要(原文)

Semantic Multi-Object Tracking (SMOT) extends multi-object tracking with semantic outputs such as video summaries, instance-level captions, and interaction labels, aiming to move from trajectories to human-interpretable descriptions of dynamic scenes. Existing SMOT systems are trained end-to-end, coupling progress to expensive supervision, limiting the ability to rapidly adapt to new foundation models and new interactions. We propose TF-SMOT, a training-free SMOT pipeline that composes pretrained components for detection, mask-based tracking, and video-language generation. TF-SMOT combines D-FINE and the promptable SAM2 segmentation tracker to produce temporally consistent tracklets, uses contour grounding to generate video summaries and instance captions with InternVideo2.5, and aligns extracted interaction predicates to BenSMOT WordNet synsets via gloss-based semantic retrieval with LLM disambiguation. On BenSMOT, TF-SMOT achieves state-of-the-art tracking performance within the SMOT setting and improves summary and caption quality compared to prior art. Interaction recognition, however, remains challenging under strict exact-match evaluation on the fine-grained and long-tailed WordNet label space; our analysis and ablations indicate that semantic overlap and label granularity substantially affect measured performance.