InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

📄 arXiv: 2601.02281v1 📥 PDF

作者: Shuai Yuan, Yantai Yang, Xiaotian Yang, Xupeng Zhang, Zhonghao Zhao, Lingming Zhang, Zhipeng Zhang

分类: cs.CV

发布日期: 2026-01-05

🔗 代码/项目: GITHUB


💡 一句话要点

提出InfiniteVGGT以解决长时间3D视觉几何理解问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D视觉理解 流式处理 因果变换器 长时间序列 KV缓存 信息剪枝 长基准评估

📋 核心要点

  1. 现有方法在处理长时间序列时,无法有效支持无限输入,且容易出现漂移现象。
  2. 论文提出了一种因果视觉几何变换器InfiniteVGGT,通过滚动记忆机制解决了流式输入的稳定性问题。
  3. InfiniteVGGT在长时间稳定性上优于现有流式方法,并通过Long3D基准实现了对无限视野的严格评估。

📝 摘要(中文)

实现持久的大规模3D视觉几何理解的宏伟愿景受到可扩展性与长期稳定性之间不可调和的需求的束缚。尽管离线模型如VGGT在几何能力上表现出色,但其基于批处理的特性使其不适用于实时系统。流式架构虽然是实时操作的预期解决方案,但在支持真正无限输入或在长序列中遭遇灾难性漂移方面表现不佳。InfiniteVGGT通过有界但自适应且持续表达的KV缓存,提出了一种因果视觉几何变换器,打破了这一长期困境。我们还引入了Long3D基准,首次实现对连续3D几何估计的严格评估。

🔬 方法详解

问题定义:论文要解决的是在长时间序列中进行3D视觉几何理解时,现有方法无法支持无限输入且容易出现漂移的问题。

核心思路:论文的核心解决思路是引入一种因果视觉几何变换器InfiniteVGGT,利用滚动记忆机制和自适应KV缓存来保持信息的长期稳定性。

技术框架:整体架构包括因果变换器模块、KV缓存管理模块和信息剪枝模块,能够动态处理输入流并保持有效信息。

关键创新:最重要的技术创新在于提出了一种无训练、无注意力的剪枝策略,能够智能丢弃过时信息,从而实现记忆的“滚动”更新。

关键设计:在设计中,采用了与FlashAttention兼容的结构,确保了高效的计算性能,同时在参数设置上进行了优化,以支持长达10,000帧的输入序列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,InfiniteVGGT在长时间稳定性上显著优于现有流式方法,能够有效处理长达10,000帧的输入序列,且在连续3D几何估计的评估中表现出色,提供了一个新的基准平台。

🎯 应用场景

该研究的潜在应用领域包括实时3D场景理解、虚拟现实、增强现实等,能够为自动驾驶、机器人导航等提供更为稳定和准确的几何理解能力。未来,InfiniteVGGT有望推动长时间序列处理技术的发展,提升相关领域的智能化水平。

📄 摘要(原文)

The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT