M2H-MX: Multi-Task Dense Visual Perception for Real-Time Monocular Spatial Understanding
作者: U. V. B. L. Udugama, George Vosselman, Francesco Nex
分类: cs.CV
发布日期: 2026-03-31
备注: 6 pages, 5 figures, 5 tables. Preprint under review
💡 一句话要点
M2H-MX:用于实时单目空间理解的多任务密集视觉感知模型
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目视觉 多任务学习 深度估计 语义分割 SLAM 实时感知 机器人导航
📋 核心要点
- 单目相机成本低、易部署,但从单一图像流中实现可靠的实时空间理解仍然具有挑战性。
- M2H-MX模型通过register-gated全局上下文和可控跨任务交互,在轻量级解码器中实现了深度和语义预测的相互增强。
- 实验表明,M2H-MX在NYUDv2和ScanNet数据集上均取得了显著提升,验证了其在实时单目空间感知中的有效性。
📝 摘要(中文)
本文提出M2H-MX,一种用于单目空间理解的实时多任务感知模型。该模型保留了多尺度特征表示,并在轻量级解码器中引入了register-gated全局上下文和可控的跨任务交互,从而使深度和语义预测能够在严格的延迟约束下相互增强。其输出通过紧凑的感知到映射接口直接集成到未修改的单目SLAM流程中。在NYUDv2数据集上,M2H-MX-L取得了最先进的结果,语义mIoU提高了6.6%,深度RMSE降低了9.4%。在ScanNet数据集上,当部署在实时单目映射系统中时,M2H-MX与强大的单目SLAM基线相比,平均轨迹误差降低了60.7%,同时生成了更清晰的度量语义地图。这些结果表明,现代多任务密集预测可以可靠地部署在机器人系统中的实时单目空间感知中。
🔬 方法详解
问题定义:论文旨在解决单目视觉SLAM中,如何利用单张图像进行实时、准确的空间理解问题。现有方法通常依赖于独立的深度估计和语义分割模型,忽略了任务间的相互关系,且难以在计算资源有限的机器人平台上实现实时性。
核心思路:论文的核心思路是设计一个多任务密集预测模型,同时预测深度和语义信息,并利用任务间的互补性来提高整体性能。通过引入register-gated全局上下文和可控的跨任务交互,使深度和语义预测能够相互增强,从而提高空间理解的准确性和鲁棒性。
技术框架:M2H-MX模型包含一个共享的编码器和一个多任务解码器。编码器负责提取多尺度特征表示。解码器包含register-gated全局上下文模块和跨任务交互模块。register-gated全局上下文模块用于捕获图像的全局信息,并根据图像内容动态地调整全局上下文的权重。跨任务交互模块用于在深度和语义预测之间传递信息,从而使它们能够相互增强。最后,模型输出深度图和语义分割图,并将其输入到单目SLAM系统中。
关键创新:M2H-MX的关键创新在于register-gated全局上下文模块和可控的跨任务交互模块。register-gated全局上下文模块能够根据图像内容动态地调整全局上下文的权重,从而提高模型的鲁棒性。可控的跨任务交互模块能够有效地利用任务间的互补性,从而提高整体性能。此外,轻量级解码器的设计保证了模型的实时性。
关键设计:模型采用ResNet作为骨干网络,提取多尺度特征。register-gated全局上下文模块使用SE (Squeeze-and-Excitation) block来实现。跨任务交互模块使用注意力机制来实现。损失函数包括深度损失和语义损失,并使用权重来平衡两个任务的贡献。模型在PyTorch中实现,并使用Adam优化器进行训练。
🖼️ 关键图片
📊 实验亮点
M2H-MX在NYUDv2数据集上取得了state-of-the-art的结果,语义mIoU提高了6.6%,深度RMSE降低了9.4%。在ScanNet数据集上,当部署在实时单目映射系统中时,M2H-MX与强大的单目SLAM基线相比,平均轨迹误差降低了60.7%,同时生成了更清晰的度量语义地图。这些结果表明,M2H-MX能够显著提高单目SLAM系统的性能。
🎯 应用场景
M2H-MX模型可应用于机器人导航、增强现实、自动驾驶等领域。通过提供准确的深度和语义信息,该模型能够帮助机器人更好地理解周围环境,从而实现更安全、更高效的自主导航。在增强现实应用中,该模型可以用于创建更逼真的虚拟场景,并实现更自然的交互。在自动驾驶领域,该模型可以用于提高车辆对周围环境的感知能力,从而提高驾驶安全性。
📄 摘要(原文)
Monocular cameras are attractive for robotic perception due to their low cost and ease of deployment, yet achieving reliable real-time spatial understanding from a single image stream remains challenging. While recent multi-task dense prediction models have improved per-pixel depth and semantic estimation, translating these advances into stable monocular mapping systems is still non-trivial. This paper presents M2H-MX, a real-time multi-task perception model for monocular spatial understanding. The model preserves multi-scale feature representations while introducing register-gated global context and controlled cross-task interaction in a lightweight decoder, enabling depth and semantic predictions to reinforce each other under strict latency constraints. Its outputs integrate directly into an unmodified monocular SLAM pipeline through a compact perception-to-mapping interface. We evaluate both dense prediction accuracy and in-the-loop system performance. On NYUDv2, M2H-MX-L achieves state-of-the-art results, improving semantic mIoU by 6.6% and reducing depth RMSE by 9.4% over representative multi-task baselines. When deployed in a real-time monocular mapping system on ScanNet, M2H-MX reduces average trajectory error by 60.7% compared to a strong monocular SLAM baseline while producing cleaner metric-semantic maps. These results demonstrate that modern multi-task dense prediction can be reliably deployed for real-time monocular spatial perception in robotic systems.