Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

📄 arXiv: 2601.21826v1 📥 PDF

作者: Aadi Palnitkar, Mingyang Mao, Nicholas Waytowich, Vinicius G. Goecks, Tinoosh Mohsenin, Xiaomin Lin

分类: cs.CL

发布日期: 2026-01-29


💡 一句话要点

Mil-SCORE:提出军事场景下长上下文地理空间推理与规划基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长上下文推理 地理空间规划 大型语言模型 军事场景 基准数据集

📋 核心要点

  1. 现有LLM在处理需要整合异构多模态信息源的长上下文地理空间规划任务时面临挑战。
  2. MilSCORE数据集通过模拟复杂的军事规划场景,提供了一个评估LLM长上下文推理能力的基准。
  3. 实验结果表明,现有视觉语言模型在MilSCORE上表现不佳,为未来研究提供了改进方向。

📝 摘要(中文)

随着大型语言模型(LLM)被应用于越来越长和更复杂的任务,迫切需要现实的长上下文基准,这些基准需要选择性地读取和整合异构、多模态信息源。对于地理空间规划问题,例如大规模军事行动规划,这种需求尤为突出,因为这些问题需要在地图、命令、情报报告和其他分布式数据上进行快速准确的推理。为了解决这一差距,我们提出了MilSCORE(军事场景上下文推理),据我们所知,这是第一个基于复杂模拟军事规划场景的专家编写的多跳问题场景级数据集,用于训练LLM。MilSCORE旨在评估高风险决策和规划,探测LLM在多个来源中结合战术和空间推理以及在长时程、地理空间丰富的上下文中进行推理的能力。该基准包括七个类别中各种类型的问题,针对事实回忆和关于约束、策略和空间分析的多步骤推理。我们提供了一个评估协议,并报告了一系列当代视觉语言模型的基线结果。我们的研究结果表明MilSCORE仍有很大的提升空间,表明当前系统在现实的场景级长上下文规划中存在困难,并将MilSCORE定位为未来工作的一个具有挑战性的试验台。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在复杂、长上下文的地理空间推理和规划任务中的不足。现有方法难以有效地整合异构、多模态的信息源,尤其是在需要进行多步骤推理和高风险决策的场景下,例如军事规划。现有的数据集和基准测试无法充分评估LLM在这些现实场景中的能力。

核心思路:论文的核心思路是构建一个更具挑战性和现实性的基准数据集,即MilSCORE,以评估LLM在长上下文地理空间推理和规划方面的能力。该数据集基于模拟的军事规划场景,包含专家编写的多跳问题,需要LLM结合战术和空间推理,并处理长时程的地理空间信息。

技术框架:MilSCORE数据集的构建流程包括:1) 设计复杂的军事规划场景;2) 由领域专家编写基于场景的多跳问题,涵盖事实回忆、约束推理、策略分析和空间分析等多个方面;3) 提供评估协议,用于评估LLM在MilSCORE上的表现。该框架旨在模拟真实世界的复杂决策环境,并提供一个标准化的评估平台。

关键创新:MilSCORE的主要创新在于其场景级的长上下文设计,以及对地理空间推理和规划能力的关注。与现有的数据集相比,MilSCORE更贴近实际应用场景,需要LLM进行更复杂的推理和决策。此外,该数据集由领域专家编写,保证了问题的质量和难度。

关键设计:MilSCORE数据集包含七个类别的问题,涵盖事实回忆、约束推理、策略分析和空间分析等。问题的设计考虑了军事规划的各个方面,例如资源分配、路线规划、风险评估等。数据集还提供了详细的场景描述和相关文档,以便LLM能够更好地理解上下文信息。评估协议包括多种指标,用于评估LLM在不同方面的表现。

📊 实验亮点

论文评估了多个视觉语言模型在MilSCORE上的表现,结果表明现有模型在处理长上下文地理空间推理和规划任务时仍存在较大差距。具体而言,模型的准确率远低于人类水平,表明当前系统难以有效地整合多源信息并进行复杂推理。这些结果突显了MilSCORE作为未来研究挑战性测试平台的价值。

🎯 应用场景

MilSCORE的研究成果可应用于军事领域的自动化决策支持系统,提升规划效率和决策质量。此外,该基准和方法论也可推广到其他需要长上下文地理空间推理的领域,如城市规划、灾害管理和物流优化,促进相关AI技术的发展和应用。

📄 摘要(原文)

As large language models (LLMs) are applied to increasingly longer and more complex tasks, there is a growing need for realistic long-context benchmarks that require selective reading and integration of heterogeneous, multi-modal information sources. This need is especially acute for geospatial planning problems, such as those found in planning for large-scale military operations, which demand fast and accurate reasoning over maps, orders, intelligence reports, and other distributed data. To address this gap, we present MilSCORE (Military Scenario Contextual Reasoning), to our knowledge the first scenario-level dataset of expert-authored, multi-hop questions grounded in a complex, simulated military planning scenario used for training. MilSCORE is designed to evaluate high-stakes decision-making and planning, probing LLMs' ability to combine tactical and spatial reasoning across multiple sources and to reason over long-horizon, geospatially rich context. The benchmark includes a diverse set of question types across seven categories targeting both factual recall and multi-step reasoning about constraints, strategy, and spatial analysis. We provide an evaluation protocol and report baseline results for a range of contemporary vision-language models. Our findings highlight substantial headroom on MilSCORE, indicating that current systems struggle with realistic, scenario-level long-context planning, and positioning MilSCORE as a challenging testbed for future work.