Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy

📄 arXiv: 2406.02989v2 📥 PDF

作者: Yunho Kim, Jeong Hyun Lee, Choongin Lee, Juhyeok Mun, Donghoon Youm, Jeongsoo Park, Jemin Hwangbo

分类: cs.RO, cs.AI

发布日期: 2024-06-05 (更新: 2024-09-28)

备注: Accepted to IEEE Robotics and Automation Letters (RA-L) 2024, First two authors contributed equally

期刊: IEEE Robotics and Automation Letters (Volume: 9, Issue: 11, November 2024)

DOI: 10.1109/LRA.2024.3474548


💡 一句话要点

提出基于第一视角视频和自动标注的语义可通行性学习方法,用于城市机器人导航。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义可通行性 自主导航 第一视角视频 自动标注 图像分割

📋 核心要点

  1. 现有语义可通行性方法依赖人工标注数据,成本高昂且难以扩展到不同城市和场景。
  2. 该论文提出利用行人第一视角视频,并结合图像分割基础模型自动生成训练数据,降低标注成本。
  3. 实验证明,该方法训练的语义可通行性估计器准确、高效,并成功应用于实际机器人导航。

📝 摘要(中文)

为了在城市环境中实现可靠的自主机器人导航,机器人必须具备基于场景语义理解识别图像中语义可通行地形的能力。这种推理能力基于语义可通行性,通常通过在测试领域微调语义分割模型来实现。然而,微调过程通常涉及使用目标机器人进行手动数据收集以及人工标注,这既昂贵又难以扩展。本文提出了一种有效的语义可通行性估计器训练方法,该方法使用第一视角视频和自动标注流程。第一视角视频从安装在行人胸前的相机收集。然后,通过使用图像分割领域最新的基础模型及其提示技术提取每个视频帧中的语义可通行区域,自动生成用于训练语义可通行性估计器的数据集。在多个国家和城市拍摄的视频上进行的大量实验表明了所提出的标注方法具有高度的可扩展性和泛化性。此外,性能分析和自主机器人导航的实际部署表明,训练后的语义可通行性估计器非常准确,能够处理不同的相机视角,计算量小,并且适用于实际应用。

🔬 方法详解

问题定义:论文旨在解决城市环境中自主机器人导航的语义可通行性问题。现有方法依赖于人工标注的语义分割数据来训练模型,这在数据收集和标注方面成本高昂,并且难以泛化到新的城市和场景。因此,如何高效、低成本地获取语义可通行性训练数据是关键挑战。

核心思路:论文的核心思路是利用行人佩戴的第一视角相机拍摄的视频,结合图像分割领域的基础模型,自动生成语义可通行性的标注数据。行人自然地行走在可通行的区域,因此第一视角视频包含了丰富的可通行区域信息。通过图像分割模型识别视频帧中的语义信息,并结合启发式规则,可以自动标注出可通行的区域。

技术框架:整体框架包括三个主要步骤:1) 数据采集:使用安装在行人胸前的相机采集第一视角视频。2) 自动标注:利用图像分割基础模型(如Segment Anything Model, SAM)对视频帧进行分割,并结合预定义的语义类别(如人行道、道路等)和启发式规则,自动生成语义可通行性的标注。3) 模型训练:使用自动标注的数据训练语义可通行性估计器,该估计器可以预测图像中每个像素的可通行性概率。

关键创新:该论文的关键创新在于提出了一种基于第一视角视频和自动标注的语义可通行性学习方法。与传统的人工标注方法相比,该方法大大降低了数据标注的成本,并且具有更好的可扩展性和泛化性。此外,利用图像分割基础模型进行自动标注,可以充分利用现有的大规模预训练模型,提高标注的准确性和效率。

关键设计:在自动标注过程中,论文使用了Segment Anything Model (SAM) 作为图像分割的基础模型,并结合了prompting技术来引导SAM分割出感兴趣的区域。此外,论文还定义了一组语义类别,用于描述不同的地形类型,并设计了一组启发式规则,用于判断哪些区域是可通行的。在模型训练方面,论文使用了常见的语义分割网络结构,并采用交叉熵损失函数来优化模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文在多个国家和城市拍摄的视频上进行了实验,结果表明,所提出的自动标注方法具有高度的可扩展性和泛化性。实验结果还表明,使用自动标注数据训练的语义可通行性估计器具有很高的准确性,并且能够处理不同的相机视角。此外,该估计器计算量小,可以实时运行在机器人平台上,为实际应用提供了可能。

🎯 应用场景

该研究成果可广泛应用于自主移动机器人、自动驾驶、增强现实等领域。例如,可以帮助机器人更好地理解周围环境,从而实现更安全、更高效的导航。此外,该方法还可以用于生成大规模的语义地图,为城市规划和管理提供支持。未来,该技术有望应用于更多场景,例如智能交通、智慧城市等。

📄 摘要(原文)

For reliable autonomous robot navigation in urban settings, the robot must have the ability to identify semantically traversable terrains in the image based on the semantic understanding of the scene. This reasoning ability is based on semantic traversability, which is frequently achieved using semantic segmentation models fine-tuned on the testing domain. This fine-tuning process often involves manual data collection with the target robot and annotation by human labelers which is prohibitively expensive and unscalable. In this work, we present an effective methodology for training a semantic traversability estimator using egocentric videos and an automated annotation process. Egocentric videos are collected from a camera mounted on a pedestrian's chest. The dataset for training the semantic traversability estimator is then automatically generated by extracting semantically traversable regions in each video frame using a recent foundation model in image segmentation and its prompting technique. Extensive experiments with videos taken across several countries and cities, covering diverse urban scenarios, demonstrate the high scalability and generalizability of the proposed annotation method. Furthermore, performance analysis and real-world deployment for autonomous robot navigation showcase that the trained semantic traversability estimator is highly accurate, able to handle diverse camera viewpoints, computationally light, and real-world applicable. The summary video is available at https://youtu.be/EUVoH-wA-lA.