XTrack: Multimodal Training Boosts RGB-X Video Object Trackers

📄 arXiv: 2405.17773v2 📥 PDF

作者: Yuedong Tan, Zongwei Wu, Yuqian Fu, Zhuyun Zhou, Guolei Sun, Eduard Zamfi, Chao Ma, Danda Pani Paudel, Luc Van Gool, Radu Timofte

分类: cs.CV

发布日期: 2024-05-28 (更新: 2024-11-28)

备注: 11pages, 5figs

🔗 代码/项目: GITHUB


💡 一句话要点

XTrack:多模态训练提升RGB-X视频目标跟踪器性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视频目标跟踪 跨模态知识共享 混合专家模型 RGB-X跟踪

📋 核心要点

  1. 现有视频目标跟踪方法难以有效利用多模态数据,尤其是在推理阶段某些模态缺失时,导致性能下降。
  2. 论文提出一种基于混合专家框架的跨模态知识共享方法,通过弱分类器判断样本相似度,促进不同模态间知识迁移。
  3. 实验结果表明,该方法在RGB-X跟踪任务中,相比现有最优方法,精度平均提升3%,验证了多模态训练的有效性。

📝 摘要(中文)

多模态感知已被证明对视觉跟踪非常有价值,因为不同的传感器类型在处理物体外观变化等特定挑战性场景时具有独特的优势。虽然能够利用所有模态的通用模型是理想的,但由于数据稀疏性,其开发受到阻碍,通常在实践中,一次只能获得一种模态。因此,至关重要的是确保和实现从多模态感知中获得的知识(例如识别相关特征和区域)得到有效共享,即使在推理时某些模态不可用。我们提出了一个简单的假设:不同模态中相似的样本比其他样本具有更多的知识可以共享。为了实现这一点,我们采用了一个“弱”分类器,其任务是区分模态。更具体地说,如果分类器“未能”准确识别给定样本的模态,则表明存在跨模态知识共享的机会。直观地说,每当来自一种模态的样本与另一种模态足够接近并对齐时,知识转移就会得到促进。从技术上讲,我们通过在为多模态视频对象跟踪设计的混合专家框架内,将来自一种模态的样本路由到其他模态的专家来实现这一点。在推理过程中,选择相应模态的专家,我们表明这得益于训练期间可用的多模态知识,这要归功于所提出的方法。通过仅使用配对的RGB-E、RGB-D和RGB-T进行训练的详尽实验,我们展示了所提出的方法在推理期间对RGB-X跟踪器的益处,与当前SOTA相比,平均精度提高了+3%。我们的源代码可在https://github.com/supertyd/XTrack/tree/main公开获得。

🔬 方法详解

问题定义:论文旨在解决多模态视频目标跟踪中,如何有效利用不同模态数据进行训练,并在推理阶段某些模态缺失的情况下,依然保持良好跟踪性能的问题。现有方法通常难以充分利用多模态数据间的互补信息,尤其是在训练数据稀疏或模态缺失时,性能会显著下降。

核心思路:论文的核心思路是,如果不同模态的样本足够相似,那么它们之间就存在知识共享的机会。通过训练一个“弱”分类器来判断不同模态样本的相似度,如果分类器难以区分两个样本的模态,则认为它们足够相似,可以进行知识迁移。

技术框架:整体框架是一个混合专家(Mixture-of-Experts)模型,每个模态对应一个专家。训练阶段,输入样本首先经过弱分类器,判断其与哪个模态的专家更相似,然后将其路由到相应的专家进行训练。推理阶段,只选择对应模态的专家进行预测,但由于训练阶段已经融合了其他模态的知识,因此可以提升跟踪性能。

关键创新:最重要的创新点在于利用弱分类器来指导跨模态知识共享。与直接进行特征融合或知识蒸馏的方法不同,该方法能够根据样本的相似度自适应地进行知识迁移,避免了负迁移的问题。

关键设计:弱分类器采用简单的网络结构,例如线性分类器或浅层神经网络,目的是使其具有一定的区分能力,但又不会过于强大,从而能够识别出相似的跨模态样本。损失函数包括跟踪损失和分类损失,其中跟踪损失用于训练专家网络,分类损失用于训练弱分类器。具体的网络结构和参数设置需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在RGB-E、RGB-D和RGB-T数据集上均取得了显著的性能提升。与当前最优方法相比,平均精度提高了3%。此外,消融实验验证了弱分类器和混合专家框架的有效性,证明了跨模态知识共享能够有效提升RGB-X跟踪器的性能。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、安防监控等领域。在这些场景中,通常需要利用多种传感器(如摄像头、激光雷达、红外传感器)进行目标跟踪。该方法能够有效融合不同传感器的数据,提高目标跟踪的鲁棒性和准确性,尤其是在光照变化、遮挡等复杂环境下。

📄 摘要(原文)

Multimodal sensing has proven valuable for visual tracking, as different sensor types offer unique strengths in handling one specific challenging scene where object appearance varies. While a generalist model capable of leveraging all modalities would be ideal, development is hindered by data sparsity, typically in practice, only one modality is available at a time. Therefore, it is crucial to ensure and achieve that knowledge gained from multimodal sensing -- such as identifying relevant features and regions -- is effectively shared, even when certain modalities are unavailable at inference. We venture with a simple assumption: similar samples across different modalities have more knowledge to share than otherwise. To implement this, we employ a weak" classifier tasked with distinguishing between modalities. More specifically, if the classifierfails" to accurately identify the modality of the given sample, this signals an opportunity for cross-modal knowledge sharing. Intuitively, knowledge transfer is facilitated whenever a sample from one modality is sufficiently close and aligned with another. Technically, we achieve this by routing samples from one modality to the expert of the others, within a mixture-of-experts framework designed for multimodal video object tracking. During the inference, the expert of the respective modality is chosen, which we show to benefit from the multimodal knowledge available during training, thanks to the proposed method. Through the exhaustive experiments that use only paired RGB-E, RGB-D, and RGB-T during training, we showcase the benefit of the proposed method for RGB-X tracker during inference, with an average +3\% precision improvement over the current SOTA. Our source code is publicly available at https://github.com/supertyd/XTrack/tree/main.