Accelerating Transformer-Based Monocular SLAM via Geometric Utility Scoring

作者: Xinmiao Xiong, Bangya Liu, Hao Wang, Dayou Li, Nuo Chen, Andrew Feng, Mingyu Ding, Suman Banerjee, Yang Zhou, Zhiwen Fan

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-04-09

💡 一句话要点

提出LeanGate，通过几何效用评分加速基于Transformer的单目SLAM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单目SLAM 几何基础模型 帧门控 计算加速 Transformer 机器人视觉

📋 核心要点

现有基于几何基础模型的单目SLAM系统计算冗余高，主要由于其后关键帧选择策略导致大量无效几何解码。
LeanGate通过预测几何效用评分，在特征提取前评估帧的价值，从而避免对冗余帧进行不必要的计算。
实验表明，LeanGate能有效减少计算量，加速SLAM过程，同时保持与密集基线相当的跟踪和建图精度。

📝 摘要（中文）

几何基础模型(GFMs)通过提供鲁棒的、无需标定的3D先验，推动了单目SLAM的发展。然而，在密集视频流上部署这些模型会引入显著的计算冗余。现有的基于GFM的SLAM系统通常依赖于事后关键帧选择。因此，它们必须执行昂贵的密集几何解码，仅仅为了确定一个帧是否包含新的几何信息，导致延迟拒绝和计算浪费。为了缓解这种低效性，我们提出了LeanGate，一个轻量级的前馈帧门控网络。LeanGate预测一个几何效用评分，以在繁重的GFM特征提取和匹配阶段之前评估帧的映射价值。作为一个预测性的即插即用模块，我们的方法绕过了超过90%的冗余帧。在标准SLAM基准上的评估表明，LeanGate减少了超过85%的跟踪FLOPs，并实现了5倍的端到端吞吐量加速。此外，它保持了密集基线的跟踪和映射精度。

🔬 方法详解

问题定义：现有的基于几何基础模型（GFM）的单目SLAM系统在处理密集视频流时，存在严重的计算冗余问题。这些系统通常采用事后关键帧选择策略，即先对所有帧进行昂贵的几何解码，然后再判断其是否包含新的几何信息。这种方式导致大量计算资源被浪费在冗余帧上，降低了SLAM系统的整体效率。

核心思路：LeanGate的核心思路是在GFM特征提取和匹配之前，通过一个轻量级的网络预测帧的几何效用评分。该评分用于评估帧的映射价值，从而提前过滤掉冗余帧，避免不必要的计算。这种预测性的帧门控机制能够显著减少计算量，提高SLAM系统的运行速度。

技术框架：LeanGate作为一个即插即用的模块，可以集成到现有的基于GFM的单目SLAM系统中。其整体流程如下：首先，LeanGate接收输入的视频帧，并利用轻量级的前馈网络预测几何效用评分。然后，根据该评分，系统决定是否对该帧进行后续的GFM特征提取和匹配。如果评分低于设定的阈值，则该帧被认为是冗余帧，直接跳过后续处理；否则，进行正常的GFM特征提取和匹配，用于SLAM系统的跟踪和建图。

关键创新：LeanGate的关键创新在于其预测性的帧门控机制。与现有的事后关键帧选择策略不同，LeanGate在计算量大的GFM处理之前就对帧的价值进行评估，从而避免了对冗余帧的无效计算。这种提前过滤机制能够显著提高SLAM系统的效率。

关键设计：LeanGate采用轻量级的前馈网络结构，以保证其计算效率。网络的输入可以是原始图像或经过预处理的图像特征。网络的输出是一个标量值，表示帧的几何效用评分。损失函数的设计需要考虑如何准确预测帧的映射价值，例如可以使用基于重建误差或跟踪精度的损失函数。评分阈值的设定需要根据具体的应用场景和性能要求进行调整，以在计算效率和SLAM精度之间取得平衡。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LeanGate能够绕过超过90%的冗余帧，将跟踪FLOPs减少超过85%，并实现5倍的端到端吞吐量加速。同时，LeanGate保持了与密集基线相当的跟踪和建图精度。这些结果验证了LeanGate的有效性和优越性。

🎯 应用场景

LeanGate可应用于各种需要实时单目SLAM的场景，如增强现实、机器人导航、无人机自主飞行等。通过减少计算量，LeanGate使得基于GFM的SLAM系统能够在资源受限的平台上运行，并提高系统的实时性和鲁棒性。该研究对于推动SLAM技术在移动设备和嵌入式系统上的应用具有重要意义。

📄 摘要（原文）

Geometric Foundation Models (GFMs) have recently advanced monocular SLAM by providing robust, calibration-free 3D priors. However, deploying these models on dense video streams introduces significant computational redundancy. Current GFM-based SLAM systems typically rely on post hoc keyframe selection. Because of this, they must perform expensive dense geometric decoding simply to determine whether a frame contains novel geometry, resulting in late rejection and wasted computation. To mitigate this inefficiency, we propose LeanGate, a lightweight feed-forward frame-gating network. LeanGate predicts a geometric utility score to assess a frame's mapping value prior to the heavy GFM feature extraction and matching stages. As a predictive plug-and-play module, our approach bypasses over 90% of redundant frames. Evaluations on standard SLAM benchmarks demonstrate that LeanGate reduces tracking FLOPs by more than 85% and achieves a 5x end-to-end throughput speedup. Furthermore, it maintains the tracking and mapping accuracy of dense baselines.

Accelerating Transformer-Based Monocular SLAM via Geometric Utility Scoring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理