ENC-Bench: A Benchmark for Evaluating Multimodal Large Language Models in Electronic Navigational Chart Understanding

📄 arXiv: 2603.22763v1 📥 PDF

作者: Ao Cheng, Xingming Li, Xuanyu Ji, Xixiang He, Qiyao Sun, Chunping Qiu, Runke Huang, Qingyong Hu

分类: cs.CV

发布日期: 2026-03-24

备注: Accepted to CVPR 2026, Project page: https://qingyonghu.github.io/ENC-Bench/


💡 一句话要点

提出ENC-Bench,用于评估多模态大语言模型在电子海图理解中的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子海图理解 多模态大语言模型 基准数据集 航海安全 空间推理

📋 核心要点

  1. 现有的多模态大语言模型在电子海图理解方面能力不足,无法满足航海领域对安全性和可靠性的高要求。
  2. 构建了ENC-Bench基准数据集,包含感知、空间推理和海上决策三个层次的任务,全面评估模型在电子海图理解方面的能力。
  3. 实验结果表明,现有最佳模型在ENC-Bench上的准确率仅为47.88%,表明该领域仍存在巨大的提升空间。

📝 摘要(中文)

电子海图(ENCs)是现代航海安全的关键支柱,但多模态大语言模型(MLLMs)能否可靠地解读它们仍不清楚。与自然图像或传统海图不同,ENCs通过标准化的矢量符号、比例依赖的渲染和精确的几何结构来编码规则、水深测量和航线约束,这需要专业的航海知识才能解释。我们推出了ENC-Bench,这是第一个专门用于专业ENC理解的基准。ENC-Bench包含来自美国国家海洋和大气管理局(NOAA)的840张真实ENC的20490个经过专家验证的样本,组织成一个三级层次结构:感知(符号和特征识别)、空间推理(坐标定位、方位、距离)和海上决策(航线合法性、安全评估、多重约束下的应急计划)。所有样本都是通过校准的矢量到图像管道从原始S-57数据生成的,具有自动一致性检查和专家审查。我们评估了10个最先进的MLLM,如GPT-4o、Gemini 2.5、Qwen3-VL、InternVL-3和GLM-4.5V,采用统一的零样本协议。最好的模型仅达到47.88%的准确率,在符号 grounding、空间计算、多约束推理以及对光照和比例变化的鲁棒性方面存在系统性挑战。通过建立第一个严格的ENC基准,我们开辟了一个新的研究前沿,即专业符号推理和安全关键AI的交叉领域,为推进MLLM在专业海上应用中的发展提供了必要的基础设施。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)在理解电子海图(ENCs)方面的能力不足问题。现有的MLLMs在处理自然图像和通用图表方面表现良好,但在ENCs这种专业性强、包含复杂符号和规则的图表时,面临着符号识别困难、空间推理不准确、无法进行多约束决策等挑战。这些问题限制了MLLMs在航海领域的应用。

核心思路:论文的核心思路是构建一个专门用于评估MLLMs在ENC理解方面能力的基准数据集ENC-Bench。通过ENC-Bench,可以系统地评估MLLMs在感知、空间推理和海上决策等方面的表现,从而推动该领域的研究进展。该基准的构建基于真实的ENC数据,并经过专家验证,保证了数据的质量和可靠性。

技术框架:ENC-Bench的构建流程主要包括以下几个阶段:1) 数据收集:从美国国家海洋和大气管理局(NOAA)获取真实的ENC数据。2) 数据处理:使用校准的矢量到图像管道将原始S-57数据转换为图像格式。3) 任务设计:设计了感知、空间推理和海上决策三个层次的任务,全面评估MLLMs的能力。4) 数据标注:由专家对样本进行验证和标注,确保数据的准确性。5) 模型评估:使用统一的零样本协议评估了10个最先进的MLLMs。

关键创新:ENC-Bench是第一个专门用于评估MLLMs在ENC理解方面能力的基准数据集。与现有的通用数据集相比,ENC-Bench更加关注ENCs的专业性和复杂性,能够更准确地评估MLLMs在该领域的表现。此外,ENC-Bench还设计了三级层次结构的任务,可以更全面地评估MLLMs在不同方面的能力。

关键设计:ENC-Bench包含20490个样本,来自840张真实的NOAA ENCs。任务设计分为三个层次:感知(符号和特征识别)、空间推理(坐标定位、方位、距离)和海上决策(航线合法性、安全评估、多重约束下的应急计划)。所有样本都经过自动一致性检查和专家审查,保证了数据的质量。评估采用统一的零样本协议,以确保评估的公平性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ENC-Bench基准测试中,最佳模型(GPT-4o)的准确率仅为47.88%,远低于人类专家水平。实验结果表明,现有MLLMs在符号 grounding、空间计算、多约束推理以及对光照和比例变化的鲁棒性方面存在显著不足,表明该领域仍有巨大的提升空间。

🎯 应用场景

该研究成果可应用于智能航海系统、船舶自动驾驶、海上交通管理等领域。通过提高MLLMs对电子海图的理解能力,可以提升航海安全性,降低事故发生率,并提高航运效率。未来,该研究有望推动人工智能技术在航海领域的广泛应用。

📄 摘要(原文)

Electronic Navigational Charts (ENCs) are the safety-critical backbone of modern maritime navigation, yet it remains unclear whether multimodal large language models (MLLMs) can reliably interpret them. Unlike natural images or conventional charts, ENCs encode regulations, bathymetry, and route constraints via standardized vector symbols, scale-dependent rendering, and precise geometric structure -- requiring specialized maritime expertise for interpretation. We introduce ENC-Bench, the first benchmark dedicated to professional ENC understanding. ENC-Bench contains 20,490 expert-validated samples from 840 authentic National Oceanic and Atmospheric Administration (NOAA) ENCs, organized into a three-level hierarchy: Perception (symbol and feature recognition), Spatial Reasoning (coordinate localization, bearing, distance), and Maritime Decision-Making (route legality, safety assessment, emergency planning under multiple constraints). All samples are generated from raw S-57 data through a calibrated vector-to-image pipeline with automated consistency checks and expert review. We evaluate 10 state-of-the-art MLLMs such as GPT-4o, Gemini 2.5, Qwen3-VL, InternVL-3, and GLM-4.5V, under a unified zero-shot protocol. The best model achieves only 47.88% accuracy, with systematic challenges in symbolic grounding, spatial computation, multi-constraint reasoning, and robustness to lighting and scale variations. By establishing the first rigorous ENC benchmark, we open a new research frontier at the intersection of specialized symbolic reasoning and safety-critical AI, providing essential infrastructure for advancing MLLMs toward professional maritime applications.