VGGT-Segmentor: Geometry-Enhanced Cross-View Segmentation

📄 arXiv: 2604.13596v1 📥 PDF

作者: Yulu Gao, Bohao Zhang, Zongheng Tang, Jitong Liao, Wenjun Wu, Si Liu

分类: cs.CV

发布日期: 2026-04-15


💡 一句话要点

VGGT-Segmentor:提出几何增强的跨视角分割框架,解决视角差异下的实例分割难题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨视角分割 实例分割 几何增强 自监督学习 具身智能 远程协作 Ego-Exo4D 联合分割头

📋 核心要点

  1. 跨视角实例分割任务面临严重的尺度、视角和遮挡变化,导致像素级匹配困难,现有几何感知模型在密集预测任务中表现不佳。
  2. VGGT-Segmentor通过联合分割头将高层特征对齐转化为精确的分割掩码,该分割头包含掩码提示融合、点引导预测和迭代掩码细化三个阶段。
  3. 提出的单图像自监督训练策略无需配对标注即可实现强大的泛化能力,在Ego-Exo4D基准上显著优于现有方法。

📝 摘要(中文)

本文提出VGGT-Segmentor (VGGT-S),用于解决自中心视角和以外中心视角之间实例级对象分割这一视觉理解中的基本挑战。由于尺度、视角和遮挡的剧烈变化,直接的像素级匹配不稳定,使得该任务极具挑战性。VGGT-S框架统一了鲁棒的几何建模与像素精确的语义分割。它利用VGGT强大的跨视角特征表示,并引入了一种新的联合分割头,该分割头包含掩码提示融合、点引导预测和迭代掩码细化三个阶段,有效地将高层特征对齐转化为精确的分割掩码。此外,本文提出了一种单图像自监督训练策略,无需配对标注即可实现强大的泛化能力。在Ego-Exo4D基准测试中,VGGT-S取得了新的state-of-the-art,在Ego到Exo和Exo到Ego任务中分别达到了67.7%和68.0%的平均IoU,显著优于现有方法。值得注意的是,我们的无对应关系预训练模型超过了大多数完全监督的基线,证明了该方法的有效性和可扩展性。

🔬 方法详解

问题定义:论文旨在解决跨视角(自中心视角和以外中心视角)的实例分割问题。现有方法,如VGGT,虽然在特征对齐方面表现良好,但在像素级别的密集预测任务中,由于像素投影漂移,性能会显著下降。因此,如何在视角差异巨大的情况下,实现精确的像素级分割是本文要解决的核心问题。

核心思路:论文的核心思路是将鲁棒的几何建模与像素精确的语义分割相结合。具体来说,利用VGGT强大的跨视角特征表示能力,并在此基础上设计新的分割头,将高层特征对齐转化为精确的分割掩码。此外,通过自监督学习,减少对配对标注数据的依赖,提高模型的泛化能力。

技术框架:VGGT-Segmentor (VGGT-S) 的整体框架主要包含两个部分:VGGT 特征提取器和联合分割头。首先,使用VGGT提取跨视角的特征表示。然后,联合分割头接收这些特征,并进行三个阶段的处理:掩码提示融合(Mask Prompt Fusion)、点引导预测(Point-Guided Prediction)和迭代掩码细化(Iterative Mask Refinement)。最后,输出分割结果。此外,论文还提出了一个单图像自监督训练策略,用于预训练模型。

关键创新:论文的关键创新在于联合分割头的设计以及单图像自监督训练策略。联合分割头通过三个阶段的处理,有效地将高层特征对齐转化为精确的分割掩码,解决了像素投影漂移的问题。单图像自监督训练策略则减少了对配对标注数据的依赖,提高了模型的泛化能力。

关键设计:联合分割头包含三个阶段:1) 掩码提示融合:利用跨视角特征生成初始的掩码提示。2) 点引导预测:通过预测关键点来引导分割过程,减少漂移。3) 迭代掩码细化:通过迭代的方式逐步优化分割结果。自监督训练策略通过对单张图像进行变换,生成伪标签进行训练。损失函数方面,可能使用了交叉熵损失、Dice损失或IoU损失等,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VGGT-Segmentor在Ego-Exo4D基准测试中取得了显著的性能提升,在Ego到Exo和Exo到Ego任务中分别达到了67.7%和68.0%的平均IoU,显著优于现有方法。更重要的是,无对应关系预训练模型超过了大多数完全监督的基线,这表明了该方法的有效性和可扩展性。这些实验结果充分证明了VGGT-Segmentor在跨视角实例分割任务中的优越性。

🎯 应用场景

该研究成果可广泛应用于具身智能和远程协作等领域。例如,在机器人导航中,机器人可以利用该技术理解不同视角的场景信息,从而更好地进行路径规划和目标识别。在远程协作中,远程专家可以通过该技术更准确地理解现场情况,并指导现场人员进行操作。此外,该技术还可应用于自动驾驶、增强现实等领域,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Instance-level object segmentation across disparate egocentric and exocentric views is a fundamental challenge in visual understanding, critical for applications in embodied AI and remote collaboration. This task is exceptionally difficult due to severe changes in scale, perspective, and occlusion, which destabilize direct pixel-level matching. While recent geometry-aware models like VGGT provide a strong foundation for feature alignment, we find they often fail at dense prediction tasks due to significant pixel-level projection drift, even when their internal object-level textntion remains consistent. To bridge this gap, we introduce VGGT-Segmentor (VGGT-S), a framework that unifies robust geometric modeling with pixel-accurate semantic segmentation. VGGT-S leverages VGGT's powerful cross-view feature representation and introduces a novel Union Segmentation Head. This head operates in three stages: mask prompt fusion, point-guided prediction, and iterative mask refinement, effectively translating high-level feature alignment into a precise segmentation mask. Furthermore, we propose a single-image self-supervised training strategy that eliminates the need for paired annotations and enables strong generalization. On the Ego-Exo4D benchmark, VGGT-S sets a new state-of-the-art, achieving 67.7% and 68.0% average IoU for Ego to Exo and Exo to Ego tasks, respectively, significantly outperforming prior methods. Notably, our correspondence-free pretrained model surpasses most fully-supervised baselines, demonstrating the effectiveness and scalability of our approach.