TurboVGGT: Fast Visual Geometry Reconstruction with Adaptive Alternating Attention
作者: David Huang, Guile Wu, Chengjie Huang, Bingbing Liu, Dongfeng Bai
分类: cs.CV
发布日期: 2026-05-14
备注: Technical Report
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
TurboVGGT:基于自适应交替注意力的快速视觉几何重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 多视图几何 视觉几何Transformer 自适应注意力 稀疏注意力
📋 核心要点
- 现有多视图3D重建方法难以平衡重建质量与计算效率,限制了其应用。
- TurboVGGT通过自适应交替注意力机制,高效学习代表性token,捕获全局关系。
- 实验表明,TurboVGGT在保持重建质量的同时,显著提升了重建速度。
📝 摘要(中文)
本文提出TurboVGGT,一种采用自适应交替注意力的有效视觉几何Transformer,用于快速多视图3D重建。现有方法难以兼顾重建质量和计算效率,限制了其可扩展性。虽然出现了一些高效的视觉几何Transformer,但它们通常在所有层和帧中使用相同的稀疏度,并且缺乏自适应学习代表性token以捕获全局关系的机制,导致性能欠佳。TurboVGGT采用端到端可训练框架,通过自适应稀疏选择引导的自适应稀疏全局注意力来捕获跨帧的全局关系,并使用帧注意力来聚合每个帧内的局部细节。在自适应稀疏全局注意力中,TurboVGGT自适应地学习具有不同稀疏级别的代表性token,用于全局几何建模,考虑到token重要性在不同帧之间变化,注意力层在不同抽象级别上操作token,并且全局依赖关系依赖于结构信息丰富的区域。在多个3D重建基准上的大量实验表明,与最先进的方法相比,TurboVGGT实现了快速多视图重建,同时保持了具有竞争力的重建质量。
🔬 方法详解
问题定义:现有的基于Transformer的3D重建方法,例如视觉几何Transformer,虽然在单次前向传播中实现了有效的多视图重建,但它们在重建质量和计算效率之间难以取得平衡。一些方法虽然尝试使用稀疏注意力来提高效率,但通常在所有层和帧中使用相同的稀疏度,无法根据token的重要性自适应地调整,导致性能受限。因此,如何设计一种既能高效计算又能保持高重建质量的3D重建方法是一个关键问题。
核心思路:TurboVGGT的核心思路是利用自适应交替注意力机制,在全局层面自适应地学习代表性token,并利用帧注意力聚合局部细节。通过这种方式,模型可以有效地捕获跨帧的全局关系,同时保持对局部几何信息的敏感性。自适应稀疏全局注意力的关键在于根据token的重要性动态调整稀疏度,从而在计算效率和信息保留之间取得平衡。
技术框架:TurboVGGT采用端到端可训练的框架。整体流程包括:首先,从多视图图像中提取特征;然后,使用自适应稀疏全局注意力模块捕获跨帧的全局关系;接着,使用帧注意力模块聚合每个帧内的局部细节;最后,将提取的特征解码为3D几何结构。该框架的核心是自适应交替注意力机制,它交替使用自适应稀疏全局注意力和帧注意力,以实现高效且高质量的3D重建。
关键创新:TurboVGGT最重要的技术创新点在于自适应稀疏全局注意力机制。与现有方法不同,TurboVGGT能够根据token的重要性自适应地调整稀疏度,从而更有效地捕获全局关系。这种自适应性使得模型能够专注于结构信息丰富的区域,并忽略不重要的区域,从而提高计算效率和重建质量。此外,交替使用全局注意力和帧注意力也有助于模型更好地理解场景的全局结构和局部细节。
关键设计:TurboVGGT的关键设计包括:1) 自适应稀疏选择模块,用于根据token的重要性动态调整稀疏度;2) 稀疏全局注意力模块,用于捕获跨帧的全局关系;3) 帧注意力模块,用于聚合每个帧内的局部细节。损失函数的设计也至关重要,通常包括重建损失和正则化损失,以确保重建的几何结构准确且平滑。具体的网络结构细节和参数设置需要根据具体的应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
TurboVGGT在多个3D重建基准测试中取得了优异的性能。实验结果表明,与最先进的方法相比,TurboVGGT在保持竞争力的重建质量的同时,显著提高了重建速度。具体的性能数据可以在论文的实验部分找到,包括重建精度、完整性和运行时间等指标。项目主页提供了更多详细信息和可视化结果。
🎯 应用场景
TurboVGGT在机器人导航、自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。例如,在机器人导航中,TurboVGGT可以用于快速构建环境的3D地图,帮助机器人进行路径规划和避障。在自动驾驶中,TurboVGGT可以用于实时重建周围环境的3D模型,提高自动驾驶系统的安全性。此外,TurboVGGT还可以用于创建逼真的虚拟现实和增强现实体验。
📄 摘要(原文)
Recent feed-forward 3D reconstruction methods, such as visual geometry transformers, have substantially advanced the traditional per-scene optimization paradigm by enabling effective multi-view reconstruction in a single forward pass. However, most existing methods struggle to achieve a balance between reconstruction quality and computational efficiency, which limits their scalability and efficiency. Although some efficient visual geometry transformers have recently emerged, they typically use the same sparsity ratio across layers and frames and lack mechanisms to adaptively learn representative tokens to capture global relationships, leading to suboptimal performance. In this work, we propose TurboVGGT, a novel approach that employs an efficient visual geometry transformer with adaptive alternating attention for fast multi-view 3D reconstruction. Specifically, TurboVGGT employs an end-to-end trainable framework with adaptive sparse global attention guided by adaptive sparsity selection to capture global relationships across frames and frame attention to aggregate local details within each frame. In the adaptive sparse global attention, TurboVGGT adaptively learns representative tokens with varying sparsity levels for global geometry modeling, considering that token importance varies across frames, attention layers operate tokens at different levels of abstraction, and global dependencies rely on structurally informative regions. Extensive experiments on multiple 3D reconstruction benchmarks demonstrate that TurboVGGT achieves fast multi-view reconstruction while maintaining competitive reconstruction quality compared with state-of-the-art methods. Project page: https://turbovggt.github.io/.