Automated Marine Biofouling Assessment: Benchmarking Computer Vision and Multimodal LLMs on the Level of Fouling Scale

📄 arXiv: 2601.20196v1 📥 PDF

作者: Brayden Hamilton, Tim Cashmore, Peter Driscoll, Trevor Gee, Henry Williams

分类: cs.CV

发布日期: 2026-01-28

备注: Australasian Conference on Robotics and Automation, ACRA2025 13 Pages, 8 Figures


💡 一句话要点

利用计算机视觉和多模态LLM自动评估船舶生物污损程度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物污损评估 计算机视觉 多模态LLM 图像分割 零样本学习

📋 核心要点

  1. 现有船舶生物污损评估依赖人工,存在效率低、成本高、安全性差等问题,难以满足大规模应用需求。
  2. 本文探索了计算机视觉和多模态LLM在生物污损等级分类中的应用,旨在实现自动化、可扩展的评估方法。
  3. 实验结果表明,计算机视觉模型和LLM各有优势,结合二者可实现更准确、可解释的生物污损评估。

📝 摘要(中文)

船舶船体上的海洋生物污损带来了严重的生态、经济和生物安全风险。传统的调查方法依赖于潜水员检查,这种方法既危险又难以扩展。本文研究了使用定制计算机视觉模型和大型多模态语言模型(LLM)自动分类生物污损在污损等级(LoF)上的严重程度。在来自新西兰初级产业部的专家标记数据集上评估了卷积神经网络、基于Transformer的分割和零样本LLM。计算机视觉模型在极端LoF类别上表现出较高的准确性,但由于数据集不平衡和图像取景,在中间级别上表现不佳。在结构化提示和检索的指导下,LLM在没有训练的情况下取得了具有竞争力的性能,并提供了可解释的输出。结果表明,各种方法具有互补的优势,并表明将分割覆盖率与LLM推理相结合的混合方法为可扩展和可解释的生物污损评估提供了一条有希望的途径。

🔬 方法详解

问题定义:论文旨在解决船舶生物污损程度的自动评估问题。现有方法主要依赖人工潜水员进行检查,存在效率低下、成本高昂、安全性差等问题,难以满足大规模、实时监测的需求。此外,人工评估结果可能存在主观性,缺乏一致性和可重复性。

核心思路:论文的核心思路是利用计算机视觉和多模态LLM,从图像数据中自动提取生物污损特征,并将其分类到不同的污损等级(LoF)中。通过结合计算机视觉的精确分割能力和LLM的推理能力,旨在实现更准确、可解释的生物污损评估。

技术框架:论文采用两种主要的技术框架:一是基于卷积神经网络和Transformer的计算机视觉模型,用于图像分割和特征提取;二是基于大型多模态语言模型(LLM),通过结构化提示和检索,实现零样本的污损等级分类。整体流程包括数据采集、图像预处理、模型训练(计算机视觉模型)、模型推理、结果评估等步骤。

关键创新:论文的关键创新在于探索了多模态LLM在生物污损评估中的应用,并将其与传统的计算机视觉方法相结合。LLM无需训练即可实现竞争性的性能,并能提供可解释的输出,这为生物污损评估带来了新的可能性。此外,论文还提出了将分割覆盖率与LLM推理相结合的混合方法,旨在充分利用两种方法的优势。

关键设计:对于计算机视觉模型,论文采用了常见的卷积神经网络和Transformer架构,并针对生物污损图像的特点进行了调整。对于LLM,论文设计了结构化的提示,引导LLM理解图像内容并进行分类。此外,论文还采用了检索增强的方法,从知识库中检索相关信息,以提高LLM的推理能力。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,计算机视觉模型在极端LoF类别上表现出较高的准确性,而LLM在没有训练的情况下取得了具有竞争力的性能。特别地,LLM通过结构化提示和检索,能够提供可解释的输出,这为生物污损评估带来了新的视角。论文还提出了将分割覆盖率与LLM推理相结合的混合方法,有望进一步提高评估的准确性和可靠性。

🎯 应用场景

该研究成果可应用于船舶维护、港口管理、海洋环境监测等领域。通过自动评估船舶生物污损程度,可以优化船舶清洗计划,降低燃油消耗,减少有害物质排放,保护海洋生态环境。此外,该技术还可用于监测港口和海洋设施的生物污损情况,及时采取防治措施,保障设施安全运行。

📄 摘要(原文)

Marine biofouling on vessel hulls poses major ecological, economic, and biosecurity risks. Traditional survey methods rely on diver inspections, which are hazardous and limited in scalability. This work investigates automated classification of biofouling severity on the Level of Fouling (LoF) scale using both custom computer vision models and large multimodal language models (LLMs). Convolutional neural networks, transformer-based segmentation, and zero-shot LLMs were evaluated on an expert-labelled dataset from the New Zealand Ministry for Primary Industries. Computer vision models showed high accuracy at extreme LoF categories but struggled with intermediate levels due to dataset imbalance and image framing. LLMs, guided by structured prompts and retrieval, achieved competitive performance without training and provided interpretable outputs. The results demonstrate complementary strengths across approaches and suggest that hybrid methods integrating segmentation coverage with LLM reasoning offer a promising pathway toward scalable and interpretable biofouling assessment.