Foundation models on the bridge: Semantic hazard detection and safety maneuvers for maritime autonomy with vision-language models

📄 arXiv: 2512.24470v2 📥 PDF

作者: Kim Alexander Christensen, Andreas Gudahl Tufte, Alexey Gusev, Rohan Sinha, Milan Ganai, Ole Andreas Alsos, Marco Pavone, Martin Steinert

分类: cs.RO, cs.AI

发布日期: 2025-12-30 (更新: 2026-01-05)

备注: 17 pages without bibliography or appendix. The main paper has 16 figures. Paper webpage can be found at https://kimachristensen.github.io/bridge_policy/


💡 一句话要点

提出Semantic Lookout,利用视觉-语言模型实现海上自主航行的语义危险检测与安全规避。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 海上自主航行 视觉-语言模型 语义理解 危险检测 安全规避

📋 核心要点

  1. 传统海上自主系统难以应对依赖语义理解的异常情况,如潜水员旗帜或火灾。
  2. 论文提出Semantic Lookout,利用视觉-语言模型为自主船舶提供语义感知能力,实现快速、可人工干预的后备策略。
  3. 实验表明,该方法在港口场景中能有效理解场景、降低风险,并与人类决策对齐,且延迟可控。

📝 摘要(中文)

本研究针对海上自主航行船舶在操作设计域之外的场景检测问题,提出了一种基于视觉-语言模型(VLM)的解决方案。该方案旨在满足IMO MASS Code草案的要求,即自主船舶需能检测到偏离预定航线的行为,进入预定义的后备状态并通知操作员,允许人工立即干预,并在未经批准的情况下避免更改航行计划。论文提出Semantic Lookout,这是一个纯视觉、候选约束的VLM后备策略选择器,可在持续人工授权下,从水域有效、世界锚定的轨迹中选择一种谨慎的行动(或保持原位)。实验在40个港口场景中评估了模型的场景理解能力、延迟、与人类共识的对齐程度、以及在火灾危险场景中的短期风险缓解能力。结果表明,亚10秒的模型保留了大部分较慢的先进模型的感知能力,并且后备策略选择器优于仅基于几何的基线,增加了在火灾场景中的安全距离。现场测试验证了端到端操作。这些结果支持将VLM作为语义后备策略选择器,其延迟符合IMO MASS Code草案的要求,并为未来领域自适应的混合自主系统研究提供了动力,该系统将基础模型的语义与多传感器鸟瞰视角感知和短期重规划相结合。

🔬 方法详解

问题定义:论文旨在解决海上自主航行船舶在面对超出其预设操作设计域(ODD)的语义危险时,如何快速、安全地做出反应的问题。现有方法,如传统的基于规则或几何的算法,难以理解场景中的语义信息(例如,识别“潜水员下水”旗帜意味着附近有人在水中),因此无法做出适当的规避动作。这些方法的痛点在于缺乏对环境语义信息的理解能力,导致在复杂或异常情况下容易做出错误的决策。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)的强大语义理解能力,为自主船舶提供对环境的语义感知。通过将摄像头捕捉的图像输入VLM,模型可以识别场景中的物体、标志和潜在危险,并根据这些信息选择合适的后备策略。这种方法的核心在于将视觉信息与语言知识相结合,从而使自主系统能够理解场景的含义,并做出更明智的决策。

技术框架:Semantic Lookout的整体框架是一个快速-慢速异常检测流水线,包含以下主要模块:1) 摄像头:用于捕捉周围环境的图像。2) 视觉-语言模型(VLM):用于分析图像并识别场景中的物体和潜在危险。3) 候选约束的后备策略选择器:根据VLM的输出,从一组预定义的安全轨迹中选择最佳的后备策略(例如,减速、转向、保持原位)。4) 人工干预接口:允许操作员随时接管船舶的控制。整个流程设计为短时程、可人工干预,确保在出现异常情况时,船舶能够安全地进入后备状态,并等待人工干预。

关键创新:论文最重要的技术创新点在于将视觉-语言模型应用于海上自主航行的后备策略选择。与传统的基于规则或几何的方法相比,VLM能够理解场景的语义信息,从而做出更明智的决策。此外,论文还提出了一个候选约束的后备策略选择器,该选择器从一组预定义的安全轨迹中选择最佳的策略,从而确保船舶的安全。

关键设计:Semantic Lookout的关键设计包括:1) 使用预训练的视觉-语言模型,并针对海上环境进行微调,以提高其在特定场景下的识别精度。2) 设计一组水域有效、世界锚定的安全轨迹作为后备策略的候选集。3) 实现一个快速的推理引擎,以确保VLM能够在短时间内做出决策(亚10秒)。4) 设计一个人性化的用户界面,方便操作员随时接管船舶的控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Semantic Lookout在40个港口场景中能够有效理解场景,并与人类决策高度一致。在火灾场景中,该方法能够显著增加船舶与火源之间的安全距离,从而降低风险。亚10秒的模型保留了大部分较慢的先进模型的感知能力,并且后备策略选择器优于仅基于几何的基线。现场测试验证了端到端操作的有效性。

🎯 应用场景

该研究成果可应用于各种海上自主航行船舶,例如无人驾驶货船、自主巡逻艇和海上救援船。通过提高自主船舶对环境的语义理解能力,可以显著提高其安全性、可靠性和效率。未来,该技术有望促进海上运输的智能化和自动化,降低运营成本,并减少人为事故的发生。

📄 摘要(原文)

The draft IMO MASS Code requires autonomous and remotely supervised maritime vessels to detect departures from their operational design domain, enter a predefined fallback that notifies the operator, permit immediate human override, and avoid changing the voyage plan without approval. Meeting these obligations in the alert-to-takeover gap calls for a short-horizon, human-overridable fallback maneuver. Classical maritime autonomy stacks struggle when the correct action depends on meaning (e.g., diver-down flag means people in the water, fire close by means hazard). We argue (i) that vision-language models (VLMs) provide semantic awareness for such out-of-distribution situations, and (ii) that a fast-slow anomaly pipeline with a short-horizon, human-overridable fallback maneuver makes this practical in the handover window. We introduce Semantic Lookout, a camera-only, candidate-constrained VLM fallback maneuver selector that selects one cautious action (or station-keeping) from water-valid, world-anchored trajectories under continuous human authority. On 40 harbor scenes we measure per-call scene understanding and latency, alignment with human consensus (model majority-of-three voting), short-horizon risk-relief on fire hazard scenes, and an on-water alert->fallback maneuver->operator handover. Sub-10 s models retain most of the awareness of slower state-of-the-art models. The fallback maneuver selector outperforms geometry-only baselines and increases standoff distance on fire scenes. A field run verifies end-to-end operation. These results support VLMs as semantic fallback maneuver selectors compatible with the draft IMO MASS Code, within practical latency budgets, and motivate future work on domain-adapted, hybrid autonomy that pairs foundation-model semantics with multi-sensor bird's-eye-view perception and short-horizon replanning. Website: kimachristensen.github.io/bridge_policy