NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding

作者: Wei Xu, Cheng Wang, Dingkang Liang, Zongchuang Zhao, Xingyu Jiang, Peng Zhang, Xiang Bai

分类: cs.CV

发布日期: 2025-10-31

备注: Accepted to NeurIPS 2025. Data and models are available at https://github.com/H-EmbodVis/NAUTILUS

🔗 代码/项目: GITHUB

💡 一句话要点

NAUTILUS：用于水下场景理解的大型多模态模型，提升水下任务鲁棒性

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 水下场景理解 多模态模型 大型语言模型 视觉特征增强 水下图像处理 数据集构建 多任务学习

📋 核心要点

水下场景理解面临缺乏大规模多任务指令调优数据集的挑战，限制了相关研究的进展。
NAUTILUS通过构建包含145万图像-文本对的NautData数据集，并引入视觉特征增强模块来提升水下图像质量。
实验结果表明，NAUTILUS在多个水下场景理解任务上优于现有基线模型，证明了其有效性。

📝 摘要（中文）

水下探索为我们星球提供了重要的见解，并在资源勘探、国家安全等领域引起了越来越多的关注。本文研究了水下场景理解方法，旨在实现自动化水下探索。水下场景理解任务需要多粒度的多任务感知。然而，缺乏大规模的水下多任务指令调优数据集阻碍了这项研究的进展。为了弥合这一差距，我们构建了NautData，一个包含145万个图像-文本对的数据集，支持八个水下场景理解任务，从而能够开发和全面评估水下场景理解模型。水下图像退化是一个公认的挑战，它干扰了水下任务。为了提高水下场景理解的鲁棒性，我们引入了从水下成像模型中提取的物理先验，并提出了一个即插即用的视觉特征增强（VFE）模块，该模块显式地恢复清晰的水下信息。我们将该模块集成到著名的基线LLaVA-1.5和Qwen2.5-VL中，并构建了我们的水下LMM，NAUTILUS。在NautData和公共水下数据集上进行的实验表明，VFE模块的有效性，始终如一地提高了两个基线在大多数支持任务上的性能，从而确保了NAUTILUS在水下场景理解领域的优越性。

🔬 方法详解

问题定义：论文旨在解决水下场景理解任务中，由于缺乏大规模多任务数据集和水下图像质量差导致的性能瓶颈问题。现有方法难以有效应对水下图像的退化，并且缺乏针对水下环境的专门优化。

核心思路：论文的核心思路是构建一个大规模的水下多任务数据集NautData，并设计一个视觉特征增强（VFE）模块，利用水下成像的物理先验知识来恢复清晰的水下图像信息。通过将VFE模块集成到现有的LLM中，提升模型在水下场景理解任务上的鲁棒性和准确性。

技术框架：NAUTILUS的整体框架包括数据构建和模型构建两个主要部分。数据构建部分，构建了包含145万图像-文本对的NautData数据集，支持八个水下场景理解任务。模型构建部分，将VFE模块作为即插即用模块集成到LLaVA-1.5和Qwen2.5-VL等基线模型中。VFE模块负责增强视觉特征，提升水下图像的清晰度，然后将增强后的视觉特征输入到LLM中进行多任务学习。

关键创新：论文的关键创新在于提出了一个基于水下成像物理先验的视觉特征增强（VFE）模块。该模块显式地利用了水下成像模型中的相关知识，例如光线衰减和散射等，来恢复清晰的水下图像信息。这种方法与传统的图像增强方法不同，它更加关注水下成像的特殊性，从而能够更有效地提升水下图像的质量。

关键设计：VFE模块的具体设计细节未知，摘要中只提到利用了水下成像模型的物理先验知识。数据集NautData包含145万个图像-文本对，支持八个水下场景理解任务，但具体任务类型和数据标注方式未知。模型训练的具体参数设置、损失函数以及VFE模块的网络结构等细节也未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的VFE模块能够有效提升水下场景理解的性能。通过将VFE模块集成到LLaVA-1.5和Qwen2.5-VL等基线模型中，NAUTILUS在NautData和公共水下数据集上，在大多数支持的任务上都取得了性能提升，证明了其在水下场景理解领域的优越性。具体的性能提升数据未知。

🎯 应用场景

NAUTILUS在水下资源勘探、海洋环境监测、水下考古、水下搜救、国家安全等领域具有广泛的应用前景。该研究可以帮助实现自动化水下探索，提高水下作业的效率和安全性，并为更深入地了解海洋环境提供技术支持。未来，该模型可以集成到水下机器人或无人潜航器等设备中，实现自主水下任务。

📄 摘要（原文）

Underwater exploration offers critical insights into our planet and attracts increasing attention for its broader applications in resource exploration, national security, etc. We study the underwater scene understanding methods, which aim to achieve automated underwater exploration. The underwater scene understanding task demands multi-task perceptions from multiple granularities. However, the absence of large-scale underwater multi-task instruction-tuning datasets hinders the progress of this research. To bridge this gap, we construct NautData, a dataset containing 1.45 M image-text pairs supporting eight underwater scene understanding tasks. It enables the development and thorough evaluation of the underwater scene understanding models. Underwater image degradation is a widely recognized challenge that interferes with underwater tasks. To improve the robustness of underwater scene understanding, we introduce physical priors derived from underwater imaging models and propose a plug-and-play vision feature enhancement (VFE) module, which explicitly restores clear underwater information. We integrate this module into renowned baselines LLaVA-1.5 and Qwen2.5-VL and build our underwater LMM, NAUTILUS. Experiments conducted on the NautData and public underwater datasets demonstrate the effectiveness of the VFE module, consistently improving the performance of both baselines on the majority of supported tasks, thus ensuring the superiority of NAUTILUS in the underwater scene understanding area. Data and models are available at https://github.com/H-EmbodVis/NAUTILUS.

NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理