Reducing Label Dependency for Underwater Scene Understanding: A Survey of Datasets, Techniques and Applications

📄 arXiv: 2411.11287v1 📥 PDF

作者: Scarlett Raine, Frederic Maire, Niko Suenderhauf, Tobias Fischer

分类: cs.CV

发布日期: 2024-11-18

备注: 70 pages, 20 figures


💡 一句话要点

水下场景理解:减少标签依赖的数据集、技术与应用综述

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 水下场景理解 弱监督学习 自监督学习 语义分割 水下图像分析

📋 核心要点

  1. 水下图像分析依赖大量专家标注数据,成本高昂且耗时,现有方法难以满足需求。
  2. 综述聚焦于减少对专家标注依赖的弱监督和自监督方法,探索水下场景理解的自动化。
  3. 论文系统性地回顾了相关数据集、技术和应用,并提出了未来研究方向,旨在推动水下监测的自动化。

📝 摘要(中文)

水下调查为管理策略、珊瑚礁健康监测和蓝碳储量估算提供长期数据。机器人水下航行器等大规模调查方法的进步扩大了海洋调查范围,但也产生了大量需要分析的图像。语义分割等计算机视觉方法有助于自动化图像分析,但通常依赖于带有大量标记数据的完全监督训练。虽然街道场景分割等任务的真实标签掩码可以通过亚马逊Mechanical Turk等众包服务由非专业人员快速且经济地生成,但生态学提出了更大的挑战。水下图像的复杂性,加上在像素级别准确识别物种所需的专业知识,使得这一过程成本高昂、耗时,并且严重依赖于领域专家。近年来,一些工作对水下图像进行了自动分析,少数研究集中于旨在减少专家提供的标记数据的弱监督方法。本综述侧重于减少对人类专家输入的依赖的方法,同时回顾先前和相关的方法,以便将这些工作定位在更广泛的水下感知领域。此外,我们概述了沿海生态系统和水下图像的挑战。我们提供了弱监督和自监督深度学习的背景知识,并将这些要素整合到一个分类法中,该分类法以水下监测、计算机视觉和深度学习的交叉点为中心,同时激发了对领域专家数据注释依赖性降低的弱监督深度学习方法。最后,本综述考察了可用的数据集和平台,并确定了自动化水下调查的差距、障碍和机遇。

🔬 方法详解

问题定义:论文旨在解决水下场景理解中对大量人工标注数据的依赖问题。现有方法,特别是完全监督的深度学习方法,在水下图像分析中需要大量的像素级标注,而这些标注需要领域专家耗费大量时间和精力才能完成,成本高昂。因此,如何减少对专家标注的依赖,实现更高效、更经济的水下场景理解是亟待解决的问题。

核心思路:论文的核心思路是探索和综述弱监督和自监督学习方法在水下场景理解中的应用。这些方法旨在利用较少的标注数据,或者不使用标注数据,通过算法自动学习图像的特征和语义信息,从而降低对人工标注的依赖。通过弱监督学习,可以使用图像级别的标签或点标注等更粗粒度的标注信息来训练模型。自监督学习则通过设计预训练任务,让模型从无标注数据中学习有用的表示。

技术框架:论文构建了一个以水下监测、计算机视觉和深度学习交叉点为中心的分类体系。首先,概述了沿海生态系统和水下图像的挑战。然后,介绍了弱监督和自监督深度学习的背景知识。接着,对现有的减少标签依赖的水下场景理解方法进行了分类和综述。最后,考察了可用的数据集和平台,并识别了自动化水下调查的差距、障碍和机遇。

关键创新:论文的关键创新在于对现有减少标签依赖的水下场景理解方法进行了系统性的综述和分类,并指出了未来研究方向。与以往的综述不同,该论文更加关注如何利用弱监督和自监督学习方法来降低对专家标注的依赖,从而推动水下监测的自动化。

关键设计:论文没有提出新的算法或模型,而是对现有方法进行了梳理和总结。论文考察了各种弱监督学习方法,例如基于图像级别标签的分类、基于点标注的分割等。同时,论文也关注了自监督学习方法,例如对比学习、生成对抗网络等。论文还对各种水下图像数据集进行了分析,并指出了这些数据集的优缺点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述系统地整理了现有水下图像处理中减少标签依赖的方法,为研究者提供了全面的参考。它不仅回顾了已有的弱监督和自监督学习技术在水下环境中的应用,还指出了现有数据集的局限性以及未来研究的潜在方向,为后续研究提供了重要的指导。

🎯 应用场景

该研究成果可应用于多种水下场景,如珊瑚礁健康监测、海洋生物多样性评估、水下基础设施检测等。通过减少对人工标注的依赖,可以降低水下图像分析的成本,提高效率,从而更好地保护海洋环境,促进可持续发展。未来,该研究有望推动水下机器人和自动化监测系统的发展。

📄 摘要(原文)

Underwater surveys provide long-term data for informing management strategies, monitoring coral reef health, and estimating blue carbon stocks. Advances in broad-scale survey methods, such as robotic underwater vehicles, have increased the range of marine surveys but generate large volumes of imagery requiring analysis. Computer vision methods such as semantic segmentation aid automated image analysis, but typically rely on fully supervised training with extensive labelled data. While ground truth label masks for tasks like street scene segmentation can be quickly and affordably generated by non-experts through crowdsourcing services like Amazon Mechanical Turk, ecology presents greater challenges. The complexity of underwater images, coupled with the specialist expertise needed to accurately identify species at the pixel level, makes this process costly, time-consuming, and heavily dependent on domain experts. In recent years, some works have performed automated analysis of underwater imagery, and a smaller number of studies have focused on weakly supervised approaches which aim to reduce the expert-provided labelled data required. This survey focuses on approaches which reduce dependency on human expert input, while reviewing the prior and related approaches to position these works in the wider field of underwater perception. Further, we offer an overview of coastal ecosystems and the challenges of underwater imagery. We provide background on weakly and self-supervised deep learning and integrate these elements into a taxonomy that centres on the intersection of underwater monitoring, computer vision, and deep learning, while motivating approaches for weakly supervised deep learning with reduced dependency on domain expert data annotations. Lastly, the survey examines available datasets and platforms, and identifies gaps, barriers, and opportunities for automating underwater surveys.