NeSy-Route: A Neuro-Symbolic Benchmark for Constrained Route Planning in Remote Sensing

📄 arXiv: 2603.16307v1 📥 PDF

作者: Ming Yang, Zhi Zhou, Shi-Yu Tian, Kun-Yang Yu, Lan-Zhe Guo, Yu-Feng Li

分类: cs.AI

发布日期: 2026-03-17

备注: preprint


💡 一句话要点

NeSy-Route:遥感约束路径规划的神经符号基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感 路径规划 神经符号 基准测试 多模态大语言模型 约束优化 数据生成 分层评估

📋 核心要点

  1. 现有遥感基准测试缺乏对多模态大语言模型(MLLM)规划能力的有效评估,阻碍了其在复杂遥感任务中的应用。
  2. NeSy-Route通过自动生成大规模、具有可验证最优解的约束路径规划任务,为MLLM的规划能力评估提供了一个新的基准。
  3. 实验表明,现有MLLM在NeSy-Route基准测试中表现出感知和规划能力的不足,为未来的研究指明了方向。

📝 摘要(中文)

遥感技术在灾害救援和生态野外调查等关键应用中发挥着重要作用,这些应用需要系统理解复杂的场景和约束,并做出可靠的决策。现有的遥感基准测试主要侧重于评估多模态大型语言模型(MLLM)的感知和推理能力,但缺乏对规划能力的评估,这源于大规模规划任务的构建和验证难度,以及评估协议的不准确和不充分。为了解决这些限制,我们提出了NeSy-Route,这是一个用于遥感约束路径规划的大规模神经符号基准测试。该基准测试引入了一个自动数据生成框架,将高保真语义掩码与启发式搜索相结合,生成具有可证明最优解的多样化路径规划任务。NeSy-Route能够全面评估10,821个路径规划样本,几乎是先前最大基准测试的10倍。此外,还开发了一个三级分层神经符号评估协议,以实现准确评估,并支持对感知、推理和规划进行细粒度分析。对各种最先进的MLLM的全面评估表明,现有的MLLM在感知和规划能力方面存在显著缺陷。我们希望NeSy-Route能够支持遥感领域更强大的MLLM的进一步研究和开发。

🔬 方法详解

问题定义:论文旨在解决遥感领域中,现有基准测试无法有效评估多模态大语言模型(MLLM)在复杂约束下的路径规划能力的问题。现有方法难以生成大规模、具有可验证最优解的规划任务,且评估协议不够准确和细粒度,限制了对MLLM感知、推理和规划能力的综合评估。

核心思路:论文的核心思路是构建一个大规模、自动化的神经符号基准测试NeSy-Route,用于评估MLLM在遥感约束路径规划中的能力。通过结合高保真语义掩码和启发式搜索,自动生成具有可证明最优解的路径规划任务,并设计分层评估协议,实现对感知、推理和规划能力的细粒度评估。

技术框架:NeSy-Route的整体框架包含三个主要部分:1) 自动数据生成模块:利用高保真语义掩码和启发式搜索算法,生成大规模的约束路径规划任务。2) 基准测试数据集:包含10,821个路径规划样本,规模远大于现有基准测试。3) 三级分层评估协议:从感知、推理和规划三个层面,对MLLM进行综合评估。

关键创新:该论文的关键创新在于:1) 提出了一个自动化的数据生成框架,能够高效地生成大规模、具有可验证最优解的约束路径规划任务。2) 设计了一个三级分层神经符号评估协议,能够对MLLM的感知、推理和规划能力进行细粒度评估。3) 构建了一个大规模的遥感约束路径规划基准测试NeSy-Route,为MLLM的研究和开发提供了一个新的平台。

关键设计:数据生成模块中,启发式搜索算法的选择和参数设置对生成任务的质量和多样性至关重要。三级分层评估协议中,每一层评估指标的选择和权重分配需要根据具体任务进行调整。此外,为了保证评估的公平性,需要对MLLM的输入进行标准化处理。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,现有最先进的MLLM在NeSy-Route基准测试中表现出显著的感知和规划能力不足。例如,在复杂的约束条件下,MLLM的路径规划成功率远低于人类水平。NeSy-Route包含10,821个路径规划样本,规模远超现有基准测试,为更全面地评估MLLM的性能提供了可能。

🎯 应用场景

NeSy-Route基准测试可以应用于灾害救援、生态环境监测、城市规划等多个遥感领域。通过评估和提升MLLM在约束路径规划方面的能力,可以帮助决策者更有效地利用遥感数据,做出更明智的决策,例如在灾害发生后快速规划救援路线,或在生态调查中优化采样路径,从而提高效率、降低成本。

📄 摘要(原文)

Remote sensing underpins crucial applications such as disaster relief and ecological field surveys, where systems must understand complex scenes and constraints and make reliable decisions. Current remote-sensing benchmarks mainly focus on evaluating perception and reasoning capabilities of multimodal large language models (MLLMs). They fail to assess planning capability, stemming either from the difficulty of curating and validating planning tasks at scale or from evaluation protocols that are inaccurate and inadequate. To address these limitations, we introduce NeSy-Route, a large-scale neuro-symbolic benchmark for constrained route planning in remote sensing. Within this benchmark, we introduce an automated data-generation framework that integrates high-fidelity semantic masks with heuristic search to produce diverse route-planning tasks with provably optimal solutions. This allows NeSy-Route to comprehensively evaluate planning across 10,821 route-planning samples, nearly 10 times larger than the largest prior benchmark. Furthermore, a three-level hierarchical neuro-symbolic evaluation protocol is developed to enable accurate assessment and support fine-grained analysis on perception, reasoning, and planning simultaneously. Our comprehensive evaluation of various state-of-the-art MLLMs demonstrates that existing MLLMs show significant deficiencies in perception and planning capabilities. We hope NeSy-Route can support further research and development of more powerful MLLMs for remote sensing.