Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation

📄 arXiv: 2410.13437v1 📥 PDF

作者: Changcheng Xiao, Qiong Cao, Yujie Zhong, Xiang Zhang, Tao Wang, Canqun Yang, Long Lan

分类: cs.CV

发布日期: 2024-10-17


💡 一句话要点

提出TenRMOT,利用时序增强Transformer解决Referring多目标跟踪与分割问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Referring多目标跟踪 多模态融合 Transformer 时序建模 视频分割

📋 核心要点

  1. 现有RMOT方法特征融合松散,忽略了对跟踪对象长期时序信息的有效利用,导致跟踪一致性较差。
  2. 提出TenRMOT,通过编码器和解码器的特征融合,以及时序先验引导的查询更新模块,增强跟踪轨迹的一致性。
  3. 构建了Ref-KITTI Segmentation数据集,并验证了TenRMOT在RMOT和RMOTS任务上的优越性能。

📝 摘要(中文)

本文提出了一种基于Transformer的紧凑型方法TenRMOT,用于解决Referring多目标跟踪(RMOT)问题,该任务旨在根据语言表达式定位视频中任意数量的目标对象并保持其身份。现有方法仅采用松散的特征融合,忽略了对跟踪对象长期信息的利用。TenRMOT在编码和解码阶段进行特征融合,充分利用Transformer架构的优势。具体而言,在编码阶段逐层递增地执行跨模态融合。在解码阶段,利用语言引导的查询来探测记忆特征,以准确预测所需对象。此外,引入查询更新模块,显式地利用跟踪对象的时序先验信息来增强轨迹的一致性。同时,引入了一个新的任务Referring多目标跟踪与分割(RMOTS),并构建了一个新的数据集Ref-KITTI Segmentation,包含18个视频和818个表达式,每个表达式平均有10.7个掩码,比现有Referring视频分割数据集中的典型单掩码更具挑战性。TenRMOT在Referring多目标跟踪和分割任务上均表现出优越的性能。

🔬 方法详解

问题定义:Referring多目标跟踪(RMOT)旨在根据给定的语言描述,在视频中定位并跟踪多个目标对象。现有方法通常采用简单的特征融合策略,未能充分利用语言和视觉信息之间的关联,并且忽略了目标对象在时间上的连续性信息,导致跟踪结果不准确,轨迹不连贯。

核心思路:TenRMOT的核心思路是利用Transformer架构强大的特征融合能力,在编码阶段逐层融合语言和视觉信息,并在解码阶段利用语言引导的查询来定位目标对象。此外,通过引入查询更新模块,显式地利用目标对象的时序先验信息,从而提高跟踪轨迹的连续性和一致性。

技术框架:TenRMOT的整体架构包括编码器、解码器和查询更新模块。编码器负责提取视频帧的视觉特征和语言描述的文本特征,并进行跨模态融合。解码器利用语言引导的查询从编码器的输出中提取目标对象的特征,并预测其位置和分割掩码。查询更新模块则根据前一帧的跟踪结果,更新当前帧的查询,从而利用时序信息提高跟踪的准确性。

关键创新:TenRMOT的关键创新在于以下几点:1) 提出了逐层递增的跨模态特征融合策略,充分利用了Transformer的特征融合能力。2) 引入了语言引导的查询机制,使得解码器能够更准确地定位目标对象。3) 提出了查询更新模块,显式地利用了目标对象的时序先验信息,提高了跟踪轨迹的连续性和一致性。与现有方法相比,TenRMOT能够更有效地融合语言和视觉信息,并更好地利用时序信息,从而获得更准确、更鲁棒的跟踪结果。

关键设计:在编码阶段,采用多层Transformer编码器,每一层都进行跨模态融合。在解码阶段,使用可学习的查询向量,并通过交叉注意力机制与编码器的输出进行交互,从而提取目标对象的特征。查询更新模块使用一个简单的线性层,根据前一帧的跟踪结果更新当前帧的查询向量。损失函数包括跟踪损失和分割损失,分别用于优化目标对象的位置和分割掩码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TenRMOT在Ref-KITTI Segmentation数据集上取得了显著的性能提升。相较于现有方法,在Referring多目标跟踪和分割任务上均表现出优越的性能。具体数据指标在论文中给出,表明了TenRMOT在处理复杂场景和多目标跟踪方面的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、视频监控、人机交互等领域。例如,在自动驾驶中,可以利用该技术根据语音指令跟踪行人或车辆,提高驾驶安全性。在视频监控中,可以根据文本描述快速定位和跟踪特定目标,提高监控效率。在人机交互中,可以根据用户的语言指令,实现对视频内容的精确控制。

📄 摘要(原文)

Referring multi-object tracking (RMOT) is an emerging cross-modal task that aims to locate an arbitrary number of target objects and maintain their identities referred by a language expression in a video. This intricate task involves the reasoning of linguistic and visual modalities, along with the temporal association of target objects. However, the seminal work employs only loose feature fusion and overlooks the utilization of long-term information on tracked objects. In this study, we introduce a compact Transformer-based method, termed TenRMOT. We conduct feature fusion at both encoding and decoding stages to fully exploit the advantages of Transformer architecture. Specifically, we incrementally perform cross-modal fusion layer-by-layer during the encoding phase. In the decoding phase, we utilize language-guided queries to probe memory features for accurate prediction of the desired objects. Moreover, we introduce a query update module that explicitly leverages temporal prior information of the tracked objects to enhance the consistency of their trajectories. In addition, we introduce a novel task called Referring Multi-Object Tracking and Segmentation (RMOTS) and construct a new dataset named Ref-KITTI Segmentation. Our dataset consists of 18 videos with 818 expressions, and each expression averages 10.7 masks, which poses a greater challenge compared to the typical single mask in most existing referring video segmentation datasets. TenRMOT demonstrates superior performance on both the referring multi-object tracking and the segmentation tasks.