Accelerating Transformer-Based Monocular SLAM via Geometric Utility Scoring
作者: Xinmiao Xiong, Bangya Liu, Hao Wang, Dayou Li, Nuo Chen, Andrew Feng, Mingyu Ding, Suman Banerjee, Yang Zhou, Zhiwen Fan
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-04-09
💡 一句话要点
提出LeanGate,通过几何效用评分加速基于Transformer的单目SLAM
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单目SLAM 几何基础模型 帧门控 计算加速 Transformer 机器人视觉
📋 核心要点
- 现有基于几何基础模型的单目SLAM系统计算冗余高,主要由于其后关键帧选择策略导致大量无效几何解码。
- LeanGate通过预测几何效用评分,在特征提取前评估帧的价值,从而避免对冗余帧进行不必要的计算。
- 实验表明,LeanGate能有效减少计算量,加速SLAM过程,同时保持与密集基线相当的跟踪和建图精度。
📝 摘要(中文)
几何基础模型(GFMs)通过提供鲁棒的、无需标定的3D先验,推动了单目SLAM的发展。然而,在密集视频流上部署这些模型会引入显著的计算冗余。现有的基于GFM的SLAM系统通常依赖于事后关键帧选择。因此,它们必须执行昂贵的密集几何解码,仅仅为了确定一个帧是否包含新的几何信息,导致延迟拒绝和计算浪费。为了缓解这种低效性,我们提出了LeanGate,一个轻量级的前馈帧门控网络。LeanGate预测一个几何效用评分,以在繁重的GFM特征提取和匹配阶段之前评估帧的映射价值。作为一个预测性的即插即用模块,我们的方法绕过了超过90%的冗余帧。在标准SLAM基准上的评估表明,LeanGate减少了超过85%的跟踪FLOPs,并实现了5倍的端到端吞吐量加速。此外,它保持了密集基线的跟踪和映射精度。
🔬 方法详解
问题定义:现有的基于几何基础模型(GFM)的单目SLAM系统在处理密集视频流时,存在严重的计算冗余问题。这些系统通常采用事后关键帧选择策略,即先对所有帧进行昂贵的几何解码,然后再判断其是否包含新的几何信息。这种方式导致大量计算资源被浪费在冗余帧上,降低了SLAM系统的整体效率。
核心思路:LeanGate的核心思路是在GFM特征提取和匹配之前,通过一个轻量级的网络预测帧的几何效用评分。该评分用于评估帧的映射价值,从而提前过滤掉冗余帧,避免不必要的计算。这种预测性的帧门控机制能够显著减少计算量,提高SLAM系统的运行速度。
技术框架:LeanGate作为一个即插即用的模块,可以集成到现有的基于GFM的单目SLAM系统中。其整体流程如下:首先,LeanGate接收输入的视频帧,并利用轻量级的前馈网络预测几何效用评分。然后,根据该评分,系统决定是否对该帧进行后续的GFM特征提取和匹配。如果评分低于设定的阈值,则该帧被认为是冗余帧,直接跳过后续处理;否则,进行正常的GFM特征提取和匹配,用于SLAM系统的跟踪和建图。
关键创新:LeanGate的关键创新在于其预测性的帧门控机制。与现有的事后关键帧选择策略不同,LeanGate在计算量大的GFM处理之前就对帧的价值进行评估,从而避免了对冗余帧的无效计算。这种提前过滤机制能够显著提高SLAM系统的效率。
关键设计:LeanGate采用轻量级的前馈网络结构,以保证其计算效率。网络的输入可以是原始图像或经过预处理的图像特征。网络的输出是一个标量值,表示帧的几何效用评分。损失函数的设计需要考虑如何准确预测帧的映射价值,例如可以使用基于重建误差或跟踪精度的损失函数。评分阈值的设定需要根据具体的应用场景和性能要求进行调整,以在计算效率和SLAM精度之间取得平衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LeanGate能够绕过超过90%的冗余帧,将跟踪FLOPs减少超过85%,并实现5倍的端到端吞吐量加速。同时,LeanGate保持了与密集基线相当的跟踪和建图精度。这些结果验证了LeanGate的有效性和优越性。
🎯 应用场景
LeanGate可应用于各种需要实时单目SLAM的场景,如增强现实、机器人导航、无人机自主飞行等。通过减少计算量,LeanGate使得基于GFM的SLAM系统能够在资源受限的平台上运行,并提高系统的实时性和鲁棒性。该研究对于推动SLAM技术在移动设备和嵌入式系统上的应用具有重要意义。
📄 摘要(原文)
Geometric Foundation Models (GFMs) have recently advanced monocular SLAM by providing robust, calibration-free 3D priors. However, deploying these models on dense video streams introduces significant computational redundancy. Current GFM-based SLAM systems typically rely on post hoc keyframe selection. Because of this, they must perform expensive dense geometric decoding simply to determine whether a frame contains novel geometry, resulting in late rejection and wasted computation. To mitigate this inefficiency, we propose LeanGate, a lightweight feed-forward frame-gating network. LeanGate predicts a geometric utility score to assess a frame's mapping value prior to the heavy GFM feature extraction and matching stages. As a predictive plug-and-play module, our approach bypasses over 90% of redundant frames. Evaluations on standard SLAM benchmarks demonstrate that LeanGate reduces tracking FLOPs by more than 85% and achieves a 5x end-to-end throughput speedup. Furthermore, it maintains the tracking and mapping accuracy of dense baselines.