EvidMTL: Evidential Multi-Task Learning for Uncertainty-Aware Semantic Surface Mapping from Monocular RGB Images

📄 arXiv: 2503.04441v3 📥 PDF

作者: Rohit Menon, Nils Dengler, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz

分类: cs.RO, cs.CV

发布日期: 2025-03-06 (更新: 2025-10-18)

备注: Submitted to IROS 2025 Conference


💡 一句话要点

提出EvidMTL以解决不确定性语义表面映射问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多任务学习 不确定性估计 语义映射 深度估计 机器人导航

📋 核心要点

  1. 现有的映射方法在语义预测上过于自信,且深度传感数据稀疏且噪声较大,导致地图表示不一致。
  2. 本文提出EvidMTL框架,结合证据头进行深度估计和语义分割,实现不确定性意识推断。
  3. 在ScanNetV2的零-shot映射测试中,EvidKimera在语义表面映射的准确性和一致性上超越了Kimera,展示了不确定性意识映射的优势。

📝 摘要(中文)

在非结构化环境中,准确且具备不确定性意识的度量语义映射对于自主系统的决策至关重要。现有映射方法常常面临过于自信的语义预测以及稀疏和噪声的深度传感问题,导致地图表示不一致。本文提出EvidMTL,一个多任务学习框架,利用证据头进行深度估计和语义分割,从单目RGB图像中实现不确定性意识推断。为此,我们提出了一种新颖的证据深度损失函数,联合优化深度预测的信念强度和证据分割损失。基于此,我们展示了EvidKimera,一个不确定性意识的语义表面映射框架,利用证据深度和语义预测提高3D度量语义一致性。我们在NYUDepthV2上训练和评估EvidMTL,并在ScanNetV2上评估其零-shot性能,结果显示其不确定性估计优于传统方法,同时保持了可比的深度估计和语义分割性能。

🔬 方法详解

问题定义:本文旨在解决在非结构化环境中进行准确的度量语义映射时,现有方法在深度估计和语义分割上存在的过度自信和不一致性问题。

核心思路:EvidMTL框架通过引入证据头来实现深度估计和语义分割的联合优化,进而实现不确定性意识的推断。这种设计使得模型能够更好地处理不确定性,提升映射的可靠性。

技术框架:EvidMTL框架包含两个主要模块:证据深度估计模块和证据语义分割模块。通过联合优化这两个模块的损失函数,模型能够在推断过程中考虑不确定性。

关键创新:本文的主要创新在于提出了一种新颖的证据深度损失函数,该函数能够同时优化深度预测的信念强度和语义分割的证据损失。这一方法与传统的单任务学习方法相比,显著提高了不确定性估计的准确性。

关键设计:在损失函数设计上,结合了深度预测的信念强度和语义分割的证据损失,确保模型在训练过程中能够有效学习到不确定性。此外,采用了多任务学习的策略,使得深度估计和语义分割之间能够相互促进。

📊 实验亮点

在实验中,EvidMTL在NYUDepthV2数据集上表现出色,并在ScanNetV2的零-shot映射测试中,EvidKimera在语义表面映射的准确性和一致性上超越了Kimera,显示出显著的性能提升,尤其是在不确定性估计方面,优于传统方法。

🎯 应用场景

该研究的潜在应用领域包括自主驾驶、机器人导航以及增强现实等。通过提供更准确和不确定性意识的语义映射,EvidMTL可以帮助自主系统在复杂环境中做出更为合理的决策,提升其安全性和可靠性。未来,该技术有望在实际应用中得到广泛推广,推动智能系统的发展。

📄 摘要(原文)

For scene understanding in unstructured environments, an accurate and uncertainty-aware metric-semantic mapping is required to enable informed action selection by autonomous systems. Existing mapping methods often suffer from overconfident semantic predictions, and sparse and noisy depth sensing, leading to inconsistent map representations. In this paper, we therefore introduce EvidMTL, a multi-task learning framework that uses evidential heads for depth estimation and semantic segmentation, enabling uncertainty-aware inference from monocular RGB images. To enable uncertainty-calibrated evidential multi-task learning, we propose a novel evidential depth loss function that jointly optimizes the belief strength of the depth prediction in conjunction with evidential segmentation loss. Building on this, we present EvidKimera, an uncertainty-aware semantic surface mapping framework, which uses evidential depth and semantics prediction for improved 3D metric-semantic consistency. We train and evaluate EvidMTL on the NYUDepthV2 and assess its zero-shot performance on ScanNetV2, demonstrating superior uncertainty estimation compared to conventional approaches while maintaining comparable depth estimation and semantic segmentation. In zero-shot mapping tests on ScanNetV2, EvidKimera outperforms Kimera in semantic surface mapping accuracy and consistency, highlighting the benefits of uncertainty-aware mapping and underscoring its potential for real-world robotic applications.