Few-shot Semantic Learning for Robust Multi-Biome 3D Semantic Mapping in Off-Road Environments

📄 arXiv: 2411.06632v1 📥 PDF

作者: Deegan Atha, Xianmei Lei, Shehryar Khattak, Anna Sabel, Elle Miller, Aurelio Noca, Grace Lim, Jeffrey Edlund, Curtis Padgett, Patrick Spieler

分类: cs.CV, cs.LG, cs.RO

发布日期: 2024-11-10

备注: Accepted to Australasian Conference on Robotics and Automation (ACRA 2024)

期刊: https://ssl.linklings.net/conferences/acra/acra2024_proceedings/views/includes/files/pap127s2.pdf


💡 一句话要点

提出基于小样本语义学习的稳健多生物群落三维语义地图构建方法,用于越野环境。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 少样本学习 语义分割 三维地图 越野环境 自主导航 Vision Transformer 多生物群落

📋 核心要点

  1. 越野环境下的自主导航面临地形复杂、感知条件差和生物群落领域偏移等挑战,需要大量标注数据进行语义学习。
  2. 该方法利用预训练ViT在少量粗略标注的多生物群落数据上微调,进行2D语义分割,并通过基于距离的度量融合到3D体素地图中。
  3. 实验表明,该方法在零样本和少样本情况下均能有效提升语义分割性能,并能处理越野环境中的常见障碍物。

📝 摘要(中文)

本文提出了一种在越野环境中进行稳健多生物群落三维语义地图构建的方法,旨在解决高速自主导航中非结构化地形、恶化的感知条件和生物群落间的领域偏移带来的挑战。该方法利用预训练的Vision Transformer (ViT),并在一个小型(<500张图像)、稀疏且粗略标注(<30%像素)的多生物群落数据集上进行微调,以预测2D语义分割类别。这些类别通过一种新颖的基于距离的度量随时间融合,并聚合到3D语义体素地图中。实验表明,该方法在Yamaha(52.9 mIoU)和Rellis(55.5 mIoU)数据集上实现了零样本跨生物群落的2D语义分割,并通过少量样本的粗略稀疏标注,提高了在Yamaha(66.6 mIoU)和Rellis(67.2 mIoU)数据集上的分割性能。此外,还验证了使用体素地图和基于距离的语义融合方法处理越野环境中常见的障碍物(如突然出现的障碍物、悬垂物和水体)的可行性。

🔬 方法详解

问题定义:论文旨在解决越野环境下,由于地形复杂、感知条件恶劣以及不同生物群落之间的领域偏移,导致传统语义分割方法难以有效构建稳健的三维语义地图的问题。现有方法通常需要大量的标注数据,且泛化能力较差,难以适应多变的越野环境。

核心思路:论文的核心思路是利用预训练的Vision Transformer (ViT) 的强大特征提取能力,并通过少量(few-shot)的粗略标注数据进行微调,从而实现快速适应新环境和生物群落。同时,采用基于距离的度量进行时间融合,将2D语义信息整合到3D体素地图中,提高地图的鲁棒性和完整性。

技术框架:整体框架包括以下几个主要阶段:1) 使用预训练的ViT模型进行2D图像的特征提取;2) 在少量粗略标注的多生物群落数据集上对ViT模型进行微调,得到特定于越野环境的语义分割模型;3) 利用该模型对新的图像进行2D语义分割;4) 通过基于距离的度量方法,将不同时刻的2D语义信息融合到3D体素地图中;5) 利用构建的3D语义地图进行越野环境的感知和导航。

关键创新:论文的关键创新点在于:1) 提出了基于少量粗略标注数据的语义分割方法,降低了数据标注成本;2) 提出了基于距离的度量方法进行时间融合,提高了3D语义地图的鲁棒性;3) 验证了该方法在多生物群落越野环境下的有效性,并能处理常见的越野障碍物。

关键设计:论文的关键设计包括:1) ViT模型的选择和微调策略,包括学习率、优化器等参数的设置;2) 粗略标注数据的生成方式,例如采用稀疏标注或弱监督学习方法;3) 基于距离的度量方法的具体实现,包括距离阈值的选择和融合策略;4) 3D体素地图的构建和更新方式,包括体素大小、地图范围等参数的设置。

📊 实验亮点

实验结果表明,该方法在Yamaha和Rellis数据集上实现了零样本跨生物群落的2D语义分割,mIoU分别达到52.9%和55.5%。通过少量样本的粗略稀疏标注,分割性能进一步提升,在Yamaha和Rellis数据集上mIoU分别达到66.6%和67.2%。这些结果验证了该方法在越野环境下的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于越野自主导航、农业机器人、林业监测、灾害救援等领域。通过构建稳健的三维语义地图,可以帮助机器人更好地理解周围环境,从而实现更安全、更高效的自主导航和作业。此外,该方法还可以扩展到其他需要少量标注数据的场景,例如医疗图像分析、遥感图像解译等。

📄 摘要(原文)

Off-road environments pose significant perception challenges for high-speed autonomous navigation due to unstructured terrain, degraded sensing conditions, and domain-shifts among biomes. Learning semantic information across these conditions and biomes can be challenging when a large amount of ground truth data is required. In this work, we propose an approach that leverages a pre-trained Vision Transformer (ViT) with fine-tuning on a small (<500 images), sparse and coarsely labeled (<30% pixels) multi-biome dataset to predict 2D semantic segmentation classes. These classes are fused over time via a novel range-based metric and aggregated into a 3D semantic voxel map. We demonstrate zero-shot out-of-biome 2D semantic segmentation on the Yamaha (52.9 mIoU) and Rellis (55.5 mIoU) datasets along with few-shot coarse sparse labeling with existing data for improved segmentation performance on Yamaha (66.6 mIoU) and Rellis (67.2 mIoU). We further illustrate the feasibility of using a voxel map with a range-based semantic fusion approach to handle common off-road hazards like pop-up hazards, overhangs, and water features.