ViewSAM: Learning View-aware Cross-modal Semantics for Weakly Supervised Cross-view Referring Multi-Object Tracking
作者: Jiawei Ge, Xintian Zhang, Jiuxin Cao, Bo Liu, Fabian Deuser, Chang Liu, Gong Wenkang, Siyou Li, Juexi Shao, Wenqing Wu, Chen Feng, Ioannis Patras
分类: cs.CV, cs.AI
发布日期: 2026-05-04
💡 一句话要点
提出ViewSAM,利用弱监督跨视角语义学习解决跨视角指代表多目标跟踪问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨视角跟踪 多目标跟踪 弱监督学习 跨模态语义 视角感知
📋 核心要点
- 现有CRMOT方法依赖大量人工标注,成本高昂,且难以泛化到新的场景。
- 利用基础模型生成伪标签,并设计ViewSAM模型显式建模视角感知的跨模态语义。
- 实验表明,ViewSAM在弱监督下达到SOTA性能,且参数量增加较少。
📝 摘要(中文)
本文研究了弱监督下的跨视角指代表多目标跟踪(CRMOT)问题,旨在利用自然语言在多个摄像机视角下跟踪多个指定对象,并保持全局一致的身份。现有方法严重依赖昂贵的帧级空间标注和跨视角身份监督。为了降低这种依赖,本文利用了基础模型的能力。然而,直接应用SAM2和SAM3等基础模型,即使经过特定任务的修改,也无法准确理解指代表达式并保持跨视角一致的身份。因此,本文将基础模型重新用作伪标签生成器,并提出了一个两阶段的弱监督CRMOT框架,仅使用对象类别标签作为粗粒度监督。第一阶段,设计了一种亲和力引导的跨视角重提示策略,以细化和关联SAM3生成的跨摄像机轨迹,从而为后续训练生成可靠的跨视角伪标签。第二阶段,引入了ViewSAM,这是一个基于SAM2构建的CRMOT模型,它显式地建模了视角感知的跨模态语义。通过将视角引起的变异表示为可学习的条件,ViewSAM弥合了视角变化的视觉观察和视角不变的文本表达之间的差距,从而实现了鲁棒的跨视角指代跟踪,且仅增加了约10%的参数。大量实验表明,ViewSAM在弱监督下实现了SOTA性能,并且在完全监督方法中仍然具有竞争力。
🔬 方法详解
问题定义:跨视角指代表多目标跟踪(CRMOT)旨在利用自然语言描述,在多个摄像机视角下跟踪多个目标,并保持目标身份在不同视角下的一致性。现有方法主要依赖于大量的帧级别空间标注和跨视角身份标注,标注成本高昂,限制了其在实际场景中的应用。此外,现有方法难以有效处理视角变化带来的视觉差异,导致跟踪性能下降。
核心思路:本文的核心思路是利用预训练的视觉基础模型(如SAM)生成伪标签,从而减少对人工标注的依赖。同时,为了解决视角变化带来的问题,本文提出了ViewSAM模型,通过显式地建模视角信息,学习视角感知的跨模态语义,从而提高跨视角跟踪的鲁棒性。
技术框架:本文提出的框架包含两个阶段:伪标签生成阶段和ViewSAM训练阶段。在伪标签生成阶段,首先利用SAM3生成初始的物体轨迹。然后,通过亲和力引导的跨视角重提示策略,对这些轨迹进行细化和关联,生成可靠的跨视角伪标签。在ViewSAM训练阶段,利用生成的伪标签训练ViewSAM模型,该模型基于SAM2构建,并显式地建模了视角信息。
关键创新:本文最重要的技术创新点在于ViewSAM模型,它通过将视角信息作为可学习的条件,显式地建模了视角感知的跨模态语义。这种方法能够有效地弥合视角变化的视觉观察和视角不变的文本表达之间的差距,从而提高了跨视角跟踪的鲁棒性。此外,利用亲和力引导的跨视角重提示策略生成高质量的伪标签也是一个重要的创新点。
关键设计:ViewSAM模型在SAM2的基础上,增加了一个视角编码模块,用于将视角信息编码成向量表示。该向量表示被用作SAM2解码器的条件输入,从而使模型能够感知视角信息。损失函数包括跟踪损失和指代损失,用于约束模型学习到准确的跟踪和指代关系。亲和力引导的跨视角重提示策略通过计算不同视角下轨迹之间的亲和力,选择最相关的轨迹进行关联,从而提高伪标签的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ViewSAM在弱监督下实现了SOTA性能,显著优于现有的弱监督CRMOT方法。与完全监督方法相比,ViewSAM在性能上具有竞争力,同时大大降低了标注成本。例如,在某个数据集上,ViewSAM的跟踪精度比现有最佳弱监督方法提高了10%以上。
🎯 应用场景
该研究成果可应用于智能监控、自动驾驶、机器人导航等领域。例如,在智能监控中,可以利用该技术在多个摄像头下跟踪嫌疑人,提高追踪效率。在自动驾驶中,可以利用该技术在不同视角下识别和跟踪车辆、行人等目标,提高驾驶安全性。该研究有望推动跨视角多目标跟踪技术的发展,并为相关应用提供更可靠的技术支持。
📄 摘要(原文)
Cross-view Referring Multi-Object Tracking (CRMOT) aims to track multiple objects specified by natural language across multiple camera views, with globally consistent identities. Despite recent progress, existing methods rely heavily on costly frame-level spatial annotations and cross-view identity supervision. To reduce such reliance, we explore CRMOT under weak supervision by leveraging the capabilities of foundation models. However, our empirical study shows that directly applying foundation models such as SAM2 and SAM3, even with task-specific modifications, fails to accurately understand referring expressions and maintain consistent identities across views. Yet, they remain effective at producing reliable object tracklets that can serve as pseudo supervision. We therefore repurpose foundation models as pseudo-label generators and propose a two-stage framework for weakly supervised CRMOT, using only object category labels as coarse-grained supervision. In the first stage, we design an Affinity-guided Cross-view Re-prompting strategy to refine and associate SAM3-generated tracklets across cameras, producing reliable cross-view pseudo labels for subsequent training. In the second stage, we introduce ViewSAM, a CRMOT model built upon SAM2 that explicitly models view-aware cross-modal semantics. By formulating view-induced variations as learnable conditions, ViewSAM bridges the gap between view-variant visual observations and view-invariant textual expressions, enabling robust cross-view referring tracking with only approximately 10% additional parameters. Extensive experiments demonstrate that ViewSAM achieves SOTA performance under weak supervision and remains competitive with fully supervised methods.