AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory
作者: Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu
分类: cs.RO, cs.CV
发布日期: 2026-03-11
备注: 8 pages, 5 figures, 5 tables
💡 一句话要点
AsyncMDE:通过异步空间记忆实现实时单目深度估计,适用于边缘机器人
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单目深度估计 实时性 边缘计算 异步处理 空间记忆 特征重用 机器人感知
📋 核心要点
- 现有基于基础模型的单目深度估计计算量大,难以在边缘设备上实时运行,限制了其在机器人感知中的应用。
- AsyncMDE通过异步运行基础模型和轻量级模型,并引入空间记忆机制,实现跨帧特征重用,从而降低计算成本。
- 实验表明,AsyncMDE在保持较高精度的同时,显著降低了参数量和计算时间,可在边缘设备上实现实时深度估计。
📝 摘要(中文)
本文提出AsyncMDE,一个异步深度感知系统,旨在解决基于基础模型的单目深度估计计算成本高昂,难以在边缘平台部署的问题。该系统由一个基础模型和一个轻量级模型组成,通过时间摊销基础模型的计算成本。基础模型在后台生成高质量的空间特征,而轻量级模型在前台异步运行,通过互补融合将缓存的记忆与当前观测融合,输出深度估计,并自回归地更新记忆。这实现了跨帧特征重用,同时限制了精度下降。AsyncMDE仅有3.83M参数,在RTX 4090上以237 FPS运行,恢复了基础模型77%的精度差距,同时参数减少了25倍。在室内静态、动态和合成极端运动基准测试中验证,AsyncMDE在刷新之间表现出良好的性能,并在Jetson AGX Orin上通过TensorRT实现了161FPS,充分证明了其在实时边缘部署中的可行性。
🔬 方法详解
问题定义:论文旨在解决单目深度估计中,基于大型基础模型的算法计算量过大,难以在算力受限的边缘设备上实时部署的问题。现有方法通常对每一帧图像独立进行深度估计,忽略了连续帧之间存在的冗余信息,造成了算力浪费。
核心思路:论文的核心思路是利用连续帧之间的相关性,通过维护一个空间记忆模块,将基础模型提取的特征进行缓存和重用,从而减少基础模型的重复计算。同时,设计一个轻量级的模型,用于融合当前帧的观测和缓存的记忆,实现实时的深度估计。
技术框架:AsyncMDE系统包含两个主要模块:基础模型和轻量级模型。基础模型在后台运行,负责提取高质量的空间特征并更新空间记忆。轻量级模型在前台异步运行,接收当前帧的图像和空间记忆,通过互补融合模块将两者融合,输出深度估计结果,并自回归地更新空间记忆。整个系统采用异步的方式运行,以保证实时性。
关键创新:AsyncMDE的关键创新在于提出了异步空间记忆机制,实现了跨帧特征的重用。通过将计算量大的基础模型放在后台运行,并利用轻量级模型进行实时的深度估计,有效地降低了计算成本,同时保证了较高的精度。此外,互补融合模块的设计也保证了当前观测和历史记忆的有效融合。
关键设计:空间记忆模块采用缓存机制,存储基础模型提取的空间特征。互补融合模块采用注意力机制,根据当前帧的图像特征,自适应地选择和融合空间记忆中的特征。轻量级模型采用卷积神经网络结构,参数量较小,计算速度快。损失函数包括深度预测损失和自回归更新损失,用于优化深度估计的精度和空间记忆的更新。
🖼️ 关键图片
📊 实验亮点
AsyncMDE在RTX 4090上实现了237 FPS的运行速度,同时恢复了基础模型77%的精度差距,参数量减少了25倍。在Jetson AGX Orin上,AsyncMDE实现了161 FPS的运行速度,证明了其在边缘设备上的实时性。在室内静态、动态和合成极端运动基准测试中,AsyncMDE表现出良好的性能,验证了其鲁棒性和泛化能力。
🎯 应用场景
AsyncMDE可广泛应用于机器人导航、自动驾驶、增强现实等领域。在机器人导航中,可以为机器人提供实时的深度信息,帮助机器人进行环境感知和路径规划。在自动驾驶中,可以作为视觉感知系统的一部分,提高车辆对周围环境的理解能力。在增强现实中,可以用于构建三维场景,实现更加逼真的增强现实体验。该研究有望推动单目深度估计技术在边缘计算设备上的应用,加速机器人和人工智能技术的普及。
📄 摘要(原文)
Foundation-model-based monocular depth estimation offers a viable alternative to active sensors for robot perception, yet its computational cost often prohibits deployment on edge platforms. Existing methods perform independent per-frame inference, wasting the substantial computational redundancy between adjacent viewpoints in continuous robot operation. This paper presents AsyncMDE, an asynchronous depth perception system consisting of a foundation model and a lightweight model that amortizes the foundation model's computational cost over time. The foundation model produces high-quality spatial features in the background, while the lightweight model runs asynchronously in the foreground, fusing cached memory with current observations through complementary fusion, outputting depth estimates, and autoregressively updating the memory. This enables cross-frame feature reuse with bounded accuracy degradation. At a mere 3.83M parameters, it operates at 237 FPS on an RTX 4090, recovering 77% of the accuracy gap to the foundation model while achieving a 25X parameter reduction. Validated across indoor static, dynamic, and synthetic extreme-motion benchmarks, AsyncMDE degrades gracefully between refreshes and achieves 161FPS on a Jetson AGX Orin with TensorRT, clearly demonstrating its feasibility for real-time edge deployment.