UnderwaterVLA: Dual-brain Vision-Language-Action architecture for Autonomous Underwater Navigation

📄 arXiv: 2509.22441v1 📥 PDF

作者: Zhangyuan Wang, Yunpeng Zhu, Yuqi Yan, Xiaoyuan Tian, Xinhao Shao, Meixuan Li, Weikun Li, Guangsheng Su, Weicheng Cui, Dixia Fan

分类: cs.RO

发布日期: 2025-09-26

备注: This paper introduces the first VLA framework for AUVs, featuring a dual-brain architecture and zero-data MPC for real-world underwater navigation


💡 一句话要点

提出UnderwaterVLA,用于水下自主导航,提升复杂环境下任务完成度。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 水下导航 自主水下航行器 视觉-语言-动作模型 模型预测控制 双脑架构

📋 核心要点

  1. 水下环境复杂,存在水动力扰动、通信带宽限制和视觉感知退化等问题,导致现有水下导航方法鲁棒性不足。
  2. UnderwaterVLA采用双脑架构分离高层推理和低层控制,并引入VLA模型进行可解释决策,同时利用水动力学信息进行模型预测控制。
  3. 实验结果表明,UnderwaterVLA在恶劣视觉条件下能有效降低导航误差,任务完成度相比基线提升19%-27%,适应性更强。

📝 摘要(中文)

本文提出了一种名为UnderwaterVLA的新型水下自主导航框架,该框架集成了多模态基础模型和具身智能系统。由于水动力扰动、有限的通信带宽以及浑浊水域中退化的传感,水下作业仍然很困难。为了应对这些挑战,我们引入了三项创新。首先,双脑架构将高层任务推理与低层反应控制分离,从而在通信和计算约束下实现稳健运行。其次,我们首次将视觉-语言-动作(VLA)模型应用于水下机器人,结合结构化的思维链推理以实现可解释的决策。第三,一种基于水动力学的模型预测控制(MPC)方案可以实时补偿流体效应,而无需昂贵的特定于任务的训练。现场测试的实验结果表明,UnderwaterVLA在视觉条件退化的情况下减少了导航误差,同时比基线保持了更高的任务完成度,提升幅度为19%到27%。通过最大限度地减少对水下特定训练数据的依赖并提高跨环境的适应性,UnderwaterVLA为下一代智能AUV提供了一条可扩展且经济高效的途径。

🔬 方法详解

问题定义:水下自主导航面临的主要问题是水动力扰动、通信带宽限制以及浑浊水域中视觉感知退化,这使得传统的导航方法难以在复杂水下环境中保持鲁棒性和可靠性。现有方法通常依赖大量特定任务的水下数据进行训练,泛化能力较差,且难以解释决策过程。

核心思路:UnderwaterVLA的核心思路是将高层任务推理与低层反应控制解耦,通过双脑架构分别处理。高层“大脑”负责任务规划和决策,利用视觉-语言-动作(VLA)模型进行推理,生成可解释的行动指令。低层“大脑”负责执行控制指令,采用基于水动力学的模型预测控制(MPC)方案,实时补偿流体效应。这种设计旨在提高系统的鲁棒性、可解释性和泛化能力。

技术框架:UnderwaterVLA的整体架构包含三个主要模块:视觉感知模块、VLA推理模块和MPC控制模块。视觉感知模块负责从水下图像中提取特征;VLA推理模块利用视觉特征和任务指令,通过链式思维推理生成行动指令;MPC控制模块根据行动指令和水动力学模型,计算控制量并驱动AUV运动。双脑架构体现在VLA推理模块(高层)和MPC控制模块(低层)的解耦上。

关键创新:UnderwaterVLA的关键创新在于以下几点:1) 首次将VLA模型应用于水下机器人,实现可解释的决策;2) 提出双脑架构,解耦高层推理和低层控制,提高系统鲁棒性;3) 引入水动力学信息,设计MPC方案,实时补偿流体效应,无需大量特定任务的训练数据。与现有方法相比,UnderwaterVLA更具泛化能力和可解释性。

关键设计:VLA模型采用预训练的视觉-语言模型,并针对水下环境进行微调。链式思维推理过程采用结构化的提示工程,引导模型逐步推理,生成行动指令。MPC方案的关键在于准确的水动力学模型,该模型通过实验数据进行标定。损失函数的设计旨在平衡导航精度和任务完成度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UnderwaterVLA在恶劣视觉条件下能有效降低导航误差,任务完成度相比基线提升19%-27%。具体而言,在浑浊水域中,UnderwaterVLA的导航精度显著优于传统方法,并且能够更好地完成复杂的水下任务,例如穿越障碍物、定位目标等。

🎯 应用场景

UnderwaterVLA在水下自主导航领域具有广泛的应用前景,可用于水下勘探、海洋资源调查、水下基础设施维护、水下救援等任务。该研究成果有助于降低水下作业的成本和风险,提高作业效率和安全性,推动智能AUV的发展。

📄 摘要(原文)

This paper presents UnderwaterVLA, a novel framework for autonomous underwater navigation that integrates multimodal foundation models with embodied intelligence systems. Underwater operations remain difficult due to hydrodynamic disturbances, limited communication bandwidth, and degraded sensing in turbid waters. To address these challenges, we introduce three innovations. First, a dual-brain architecture decouples high-level mission reasoning from low-level reactive control, enabling robust operation under communication and computational constraints. Second, we apply Vision-Language-Action(VLA) models to underwater robotics for the first time, incorporating structured chain-of-thought reasoning for interpretable decision-making. Third, a hydrodynamics-informed Model Predictive Control(MPC) scheme compensates for fluid effects in real time without costly task-specific training. Experimental results in field tests show that UnderwaterVLA reduces navigation errors in degraded visual conditions while maintaining higher task completion by 19% to 27% over baseline. By minimizing reliance on underwater-specific training data and improving adaptability across environments, UnderwaterVLA provides a scalable and cost-effective path toward the next generation of intelligent AUVs.