3AM: 3egment Anything with Geometric Consistency in Videos
作者: Yang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出3AM以解决视频对象分割中的几何一致性问题
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 视频对象分割 几何一致性 3D感知 特征融合 深度学习
📋 核心要点
- 现有的视频对象分割方法在大视角变化下表现不佳,主要依赖外观特征,导致几何一致性问题。
- 论文提出3AM,通过将MUSt3R的3D感知特征与SAM2的外观特征相结合,增强了模型的几何一致性识别能力。
- 在ScanNet++和Replica等具有挑战性的数据集上,3AM在IoU和跟踪召回率上显著超越了现有方法,展示了其有效性。
📝 摘要(中文)
视频对象分割方法如SAM2通过基于内存的架构实现了强大的性能,但在大视角变化下表现不佳,主要依赖外观特征。传统的3D实例分割方法虽然解决了视角一致性问题,但需要相机姿态、深度图和昂贵的预处理。我们提出了3AM,这是一种训练时增强方法,将MUSt3R的3D感知特征集成到SAM2中。我们的轻量级特征合并器融合了多层MUSt3R特征,编码隐式几何对应关系。结合SAM2的外观特征,该模型实现了基于空间位置和视觉相似性的几何一致性识别。我们提出了一种视场感知采样策略,确保帧观察空间一致的对象区域,以实现可靠的3D对应学习。值得注意的是,我们的方法在推理时仅需RGB输入,无需相机姿态或预处理。在具有宽基线运动的挑战性数据集上,3AM显著超越了SAM2及其扩展,在ScanNet++的选定子集上实现了90.6%的IoU和71.7%的跟踪召回率,较最先进的VOS方法提高了15.9和30.4个百分点。
🔬 方法详解
问题定义:本论文旨在解决视频对象分割中的几何一致性问题,现有方法在大视角变化下表现不佳,主要依赖外观特征,导致识别不准确。
核心思路:论文的核心思路是将MUSt3R的3D感知特征与SAM2的外观特征相结合,通过融合多层特征来增强几何一致性识别能力。这样的设计使得模型能够在空间位置和视觉相似性上实现更好的识别效果。
技术框架:整体架构包括特征合并模块和视场感知采样策略。特征合并器负责融合来自MUSt3R的多层特征,而视场感知采样策略确保在训练过程中帧之间的空间一致性。
关键创新:最重要的技术创新点在于引入了视场感知采样策略和轻量级特征合并器,使得模型在推理时仅需RGB输入,无需额外的相机姿态或预处理,从而降低了复杂性。
关键设计:在模型设计中,特征合并器采用了多层特征融合策略,损失函数则结合了几何一致性和外观特征的损失,以确保模型在训练过程中能够学习到有效的3D对应关系。整体网络结构经过优化,以提高计算效率和识别精度。
🖼️ 关键图片
📊 实验亮点
在ScanNet++的选定子集上,3AM实现了90.6%的IoU和71.7%的跟踪召回率,分别比SAM2和其他最先进的VOS方法提高了15.9和30.4个百分点。这表明3AM在处理具有宽基线运动的数据集时,显著提升了性能。
🎯 应用场景
该研究在视频对象分割领域具有广泛的应用潜力,尤其是在需要处理动态场景和大视角变化的任务中,如自动驾驶、监控视频分析和增强现实等。未来,该方法有望推动更高效的视觉理解系统的发展,提升智能系统在复杂环境中的表现。
📄 摘要(原文)
Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Tracking Recall on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page:this https URL