GHOST: Geometry-Hierarchical Online Streaming Token Eviction for Efficient 3D Reconstruction

📄 arXiv: 2605.15852v1 📥 PDF

作者: Leyang Chen, Junyi Wu, Zhiteng Li, Yulun Zhang

分类: cs.CV

发布日期: 2026-05-15

🔗 代码/项目: GITHUB


💡 一句话要点

GHOST:提出几何分层在线流式Token淘汰方法,高效实现3D重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D重建 流式重建 KV缓存 Token淘汰 几何信息

📋 核心要点

  1. 现有流式3D重建方法的KV缓存随视频长度线性增长,造成严重的内存瓶颈,限制了长序列的应用。
  2. GHOST利用模型输出的3D几何信息,设计分层重要性评分和特权机制,在线淘汰冗余token,降低内存占用。
  3. 实验表明,GHOST在保证重建质量的同时,显著降低了KV缓存大小,并提升了推理速度,优于现有方法。

📝 摘要(中文)

本文提出了一种名为GHOST(Geometry-Hierarchical Online Streaming Token Eviction)的训练无关的KV缓存管理框架,用于解决长单目视频序列的流式3D重建中,KV缓存随序列长度线性增长导致的内存瓶颈问题。GHOST利用模型自身的3D几何输出来在线淘汰冗余token。该框架包含三个相互增强的创新点:分层双层重要性评分机制、保护特殊token免于淘汰的特权机制,以及余弦相似度引导的逐层预算分配。实验结果表明,GHOST在保持优秀重建质量的同时,能够将KV缓存减少近一半,并实现比现有最佳方法快1.75倍的推理速度。

🔬 方法详解

问题定义:长单目视频序列的流式3D重建需要维护一个键值(KV)缓存,该缓存的大小与序列长度线性增长,导致严重的内存瓶颈。现有的方法要么将缓存截断为固定的锚帧集合,导致重建质量下降,要么依赖于与3D场景结构无关的注意力分数启发式方法,无法保留具有几何价值的token。

核心思路:GHOST的核心思路是利用模型自身输出的3D几何信息来指导KV缓存的管理,在线淘汰冗余的token。通过分析token的几何重要性,优先保留对3D场景重建至关重要的token,从而在不显著降低重建质量的前提下,减少KV缓存的大小。

技术框架:GHOST框架主要包含三个模块:1) 分层双层重要性评分:对KV缓存中的token进行重要性评估,分为几何层和特征层,并采用分层结构,允许不同层级的信息相互补充。2) 特权机制:保护对重建至关重要的特殊token(例如关键帧的token)免于被淘汰。3) 余弦相似度引导的逐层预算分配:根据不同层特征的相似性,动态地为每一层分配KV缓存的预算,确保重要信息得到保留。

关键创新:GHOST的关键创新在于其利用3D几何信息来指导token的淘汰,而现有的方法通常依赖于注意力分数等与几何结构无关的启发式方法。这种基于几何信息的淘汰策略能够更有效地保留对3D场景重建至关重要的token,从而在减少KV缓存大小的同时,保持较高的重建质量。

关键设计:GHOST采用了一种分层的重要性评分机制,将token的重要性分为几何层和特征层。几何层的重要性基于token对应的3D点在场景中的位置和可见性进行评估,特征层的重要性则基于token的特征向量与其他token的特征向量的相似度进行评估。此外,GHOST还设计了一种特权机制,用于保护关键帧的token免于被淘汰。余弦相似度被用于衡量不同层特征的相似性,并以此为依据动态分配KV缓存预算。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GHOST在多个benchmark上实现了显著的性能提升。与现有最佳方法相比,GHOST在保持优秀重建质量的同时,能够将KV缓存减少近一半,并实现1.75倍的推理速度提升。这些结果验证了GHOST在降低内存需求和提高推理效率方面的有效性。

🎯 应用场景

GHOST技术可应用于增强现实(AR)、虚拟现实(VR)、机器人导航、自动驾驶等领域。通过降低3D重建的内存需求,GHOST使得在资源受限的设备上进行大规模场景的实时3D重建成为可能,从而推动这些应用的发展。未来,该技术有望进一步扩展到其他需要处理长序列数据的视觉任务中。

📄 摘要(原文)

Streaming 3D reconstruction from long monocular video sequences requires maintaining a key-value (KV) cache that grows linearly with sequence length, creating a severe memory bottleneck. Existing approaches either truncate the cache to a fixed set of anchor frames, leading to reconstruction quality degradation, or rely on attention-score heuristics that are agnostic to 3D scene structure, failing to preserve geometrically valuable tokens. To address these problems, we present GHOST (Geometry-Hierarchical Online Streaming Token Eviction), a training-free KV cache management framework that exploits the model's own 3D geometry outputs to evict redundant tokens online. GHOST introduces three mutually reinforcing innovations: a hierarchical dual-level importance scoring scheme, a privilege mechanism that protects special tokens from eviction, and a cosine-similarity-guided layer-wise budget allocation. Experiments on various benchmarks show that GHOST preserves excellent reconstruction quality while cutting the KV cache by nearly half and delivering 1.75x faster inference compared to state-of-the-art methods. Our code is available at https://github.com/lokiniuniu/GHOST.