ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

📄 arXiv: 2605.00245v1 📥 PDF

作者: Sydney Johns, Heng Jin, Chaoyu Zhang, Y. Thomas Hou, Wenjing Lou

分类: cs.AI

发布日期: 2026-04-30


💡 一句话要点

提出ARMOR 2025:一个面向军事场景的大语言模型安全评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全评估 军事应用 战争法 交战规则

📋 核心要点

  1. 现有LLM安全基准未能充分评估模型在军事行动法律和伦理约束下的表现,存在安全风险。
  2. ARMOR 2025基准通过提取军事条令文本,构建多选题,并结合OODA框架进行系统评估。
  3. 实验结果表明,现有商业LLM在军事应用安全对齐方面存在显著差距,亟需改进。

📝 摘要(中文)

大型语言模型(LLMs)目前正被探索用于国防应用,这些应用需要可靠且符合法律的决策支持。它们还具有增强军事环境中的决策、协调和作战效率的巨大潜力。这些用途需要反映指导实际军事行动的条令标准的评估方法。现有的安全基准侧重于一般的社会风险,并不能测试模型是否遵循管理实际军事行动的法律和道德规则。为了弥补这一差距,我们推出了ARMOR 2025,这是一个与军事相关的安全基准,它基于战争法、交战规则和联合伦理条例这三个核心军事原则。我们从这些来源中提取了条令文本,并生成了多项选择题,以保留每个规则的预期含义。该基准通过一个由观察-判断-决策-行动(OODA)决策框架指导的分类法进行组织。这种结构能够系统地测试军事相关决策类型的准确性和拒绝回答能力。该基准具有结构化的12类分类法、519个基于条令的提示以及应用于21个商业LLM的严格评估程序。评估结果揭示了军事应用安全对齐方面的关键差距。

🔬 方法详解

问题定义:现有的大语言模型安全基准主要关注通用社会风险,缺乏针对军事场景的评估,无法验证模型是否遵循战争法、交战规则和联合伦理条例等军事条令。这导致LLM在军事应用中可能做出违反法律和伦理的决策,带来潜在的安全风险。

核心思路:ARMOR 2025的核心思路是构建一个与军事条令对齐的安全基准,通过提取相关条令文本,生成多选题,并利用OODA决策框架进行系统评估。这样可以更全面地评估LLM在军事场景下的安全性和可靠性。

技术框架:ARMOR 2025基准的整体框架包括以下几个主要模块:1) 条令文本提取:从战争法、交战规则和联合伦理条例等军事条令中提取相关文本。2) 多选题生成:基于提取的条令文本,生成多项选择题,以测试LLM对条令的理解和应用能力。3) OODA框架分类:将问题按照OODA(观察-判断-决策-行动)决策框架进行分类,以便系统地评估LLM在不同决策阶段的表现。4) 模型评估:使用生成的基准测试LLM,并评估其准确性和拒绝回答不当问题的能力。

关键创新:ARMOR 2025最重要的创新点在于其与军事条令的对齐。它不是简单地评估LLM的通用安全风险,而是专门针对军事场景,评估模型是否遵循军事法律和伦理规范。这种针对性使得评估结果更具实际意义,更能反映LLM在军事应用中的潜在风险。

关键设计:ARMOR 2025的关键设计包括:1) 12类分类法:采用结构化的12类分类法,对问题进行细致的划分,以便更全面地评估LLM。2) 519个提示:包含519个基于条令的提示,覆盖了各种军事场景和决策类型。3) 严格的评估程序:采用严格的评估程序,确保评估结果的可靠性和可重复性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

对21个商业LLM的评估结果表明,它们在军事应用安全对齐方面存在显著差距。这些模型在某些情况下未能遵循军事法律和伦理规范,可能导致不当决策。该研究强调了在军事领域应用LLM时进行严格安全评估的必要性。

🎯 应用场景

ARMOR 2025可用于评估和改进LLM在军事领域的应用,例如辅助决策、情报分析和作战规划。通过该基准,可以识别LLM在军事法律和伦理方面的不足,并进行针对性改进,从而提高LLM在军事应用中的安全性和可靠性,避免潜在的法律和伦理风险。

📄 摘要(原文)

Large language models (LLMs) are now being explored for defense applications that require reliable and legally compliant decision support. They also hold significant potential to enhance decision making, coordination, and operational efficiency in military contexts. These uses demand evaluation methods that reflect the doctrinal standards that guide real military operations. Existing safety benchmarks focus on general social risks and do not test whether models follow the legal and ethical rules that govern real military operations. To address this gap, we introduce ARMOR 2025, a military aligned safety benchmark grounded in three core military doctrines the Law of War, the Rules of Engagement, and the Joint Ethics Regulation. We extract doctrinal text from these sources and generate multiple choice questions that preserve the intended meaning of each rule. The benchmark is organized through a taxonomy informed by the Observe Orient Decide Act (OODA) decision making framework. This structure enables systematic testing of accuracy and refusal across military relevant decision types. This benchmark features a structured 12-category taxonomy, 519 doctrinally grounded prompts, and rigorous evaluation procedures applied to 21 commercial LLMs. Evaluation results reveal critical gaps in safety alignment for military applications.