S-VGGT: Structure-Aware Subscene Decomposition for Scalable 3D Foundation Models
作者: Xinze Li, Pengxu Chen, Yiyuan Wang, Weifeng Su, Wentao Cheng
分类: cs.CV
发布日期: 2026-03-18
备注: 7 pages, 5 figures. Accepted by ICME 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出S-VGGT,通过结构感知的子场景分解,提升3D基础模型的可扩展性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D基础模型 场景图 子场景分解 全局注意力 结构冗余
📋 核心要点
- 现有3D基础模型因全局注意力机制导致计算成本随输入长度呈二次方增长,限制了其处理大规模场景的能力。
- S-VGGT通过构建场景图来表征结构冗余,并将场景分解为共享参考帧的子场景,实现并行高效处理。
- S-VGGT与token级加速方法正交,可无缝结合以实现复合加速,同时保持重建保真度。
📝 摘要(中文)
前馈3D基础模型面临着全局注意力机制带来的二次计算复杂度挑战,这严重限制了输入长度增加时的可扩展性。现有的token合并等加速方法虽然在token级别上有所优化,但所需的最近邻搜索引入了额外的开销,无法解决密集捕获数据中结构冗余的根本问题。本文提出了S-VGGT,一种在结构帧级别解决冗余问题的新方法,从根本上转变了优化重点。首先,利用初始特征构建一个密集的场景图,该图表征了场景的结构冗余并指导后续的场景分割。然后,将帧软分配到少量子场景中,保证组的平衡和几何过渡的平滑。核心创新在于设计子场景共享一个公共参考帧,建立一个并行的几何桥梁,从而实现独立和高效的处理,无需显式的几何对齐。这种结构重组通过减少全局注意力成本,提供了强大的内在加速。重要的是,S-VGGT与token级别的加速方法完全正交,可以无缝结合,在不影响重建保真度的情况下实现复合加速。
🔬 方法详解
问题定义:现有的3D基础模型,特别是基于Transformer的模型,在处理大规模、高密度的3D场景时,由于全局注意力机制的计算复杂度呈二次方增长,导致计算成本过高,难以扩展。现有的token合并等加速方法虽然能在一定程度上降低计算量,但引入了额外的最近邻搜索开销,且无法有效解决场景中固有的结构冗余问题。
核心思路:S-VGGT的核心思路是通过结构感知的子场景分解,将原始场景划分为多个子场景,每个子场景共享一个公共参考帧。这样,每个子场景可以独立并行地进行处理,从而显著降低全局注意力机制的计算量。通过场景图来表征场景的结构冗余,并指导场景的分割,保证子场景的平衡性和几何过渡的平滑性。
技术框架:S-VGGT的整体框架主要包含以下几个阶段:1) 特征提取:首先,从输入的3D场景数据中提取初始特征。2) 场景图构建:利用提取的特征构建一个密集的场景图,该图表征了场景的结构冗余。3) 子场景分割:基于场景图,将场景分割为多个子场景,每个子场景共享一个公共参考帧。4) 并行处理:每个子场景独立并行地进行处理,例如进行特征提取、变换等操作。5) 结果融合:将各个子场景的处理结果进行融合,得到最终的输出结果。
关键创新:S-VGGT的关键创新在于:1) 结构感知的场景图构建:通过场景图来表征场景的结构冗余,从而能够更有效地进行场景分割。2) 共享参考帧的子场景设计:每个子场景共享一个公共参考帧,从而能够实现独立并行处理,降低计算量。3) 与token级加速方法的正交性:S-VGGT与现有的token级加速方法完全正交,可以无缝结合,实现复合加速。
关键设计:S-VGGT的关键设计包括:1) 场景图的构建方式:如何有效地构建场景图,以准确表征场景的结构冗余。2) 子场景分割的策略:如何将场景分割为多个平衡且几何过渡平滑的子场景。3) 参考帧的选择:如何选择合适的参考帧,以保证子场景的独立并行处理。
🖼️ 关键图片
📊 实验亮点
论文提出的S-VGGT方法在保证重建保真度的前提下,显著降低了3D基础模型的计算复杂度。由于论文提供了代码,具体的性能数据未知,但文中强调S-VGGT与token级加速方法正交,可以实现复合加速,因此可以推断,S-VGGT在现有加速方法的基础上,能够进一步提升模型的效率。
🎯 应用场景
S-VGGT在三维重建、SLAM、自动驾驶、机器人导航等领域具有广泛的应用前景。通过降低3D基础模型的计算复杂度,S-VGGT能够支持更大规模、更高密度的场景处理,从而提升相关应用的性能和效率。未来,S-VGGT有望推动3D视觉技术在更多实际场景中的应用。
📄 摘要(原文)
Feed-forward 3D foundation models face a key challenge: the quadratic computational cost introduced by global attention, which severely limits scalability as input length increases. Concurrent acceleration methods, such as token merging, operate at the token level. While they offer local savings, the required nearest-neighbor searches introduce undesirable overhead. Consequently, these techniques fail to tackle the fundamental issue of structural redundancy dominant in dense capture data. In this work, we introduce \textbf{S-VGGT}, a novel approach that addresses redundancy at the structural frame level, drastically shifting the optimization focus. We first leverage the initial features to build a dense scene graph, which characterizes structural scene redundancy and guides the subsequent scene partitioning. Using this graph, we softly assign frames to a small number of subscenes, guaranteeing balanced groups and smooth geometric transitions. The core innovation lies in designing the subscenes to share a common reference frame, establishing a parallel geometric bridge that enables independent and highly efficient processing without explicit geometric alignment. This structural reorganization provides strong intrinsic acceleration by cutting the global attention cost at its source. Crucially, S-VGGT is entirely orthogonal to token-level acceleration methods, allowing the two to be seamlessly combined for compounded speedups without compromising reconstruction fidelity. Code is available at https://github.com/Powertony102/S-VGGT.