Safety-Oriented Evaluation of Language Understanding Systems for Air Traffic Control

📄 arXiv: 2605.11769v1 📥 PDF

作者: Yujing Chang, Yash Guleria, Duc-Thinh Pham, Nhut-Huy Pham, Ningli Wang, Vu N. Duong, Sameer Alam

分类: cs.CL

发布日期: 2026-05-12


💡 一句话要点

提出安全导向评估框架以解决空中交通管制语言理解系统的可靠性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空中交通管制 语言理解 安全评估 风险评分 人工智能 可靠性评估

📋 核心要点

  1. 现有评估方法未能考虑高风险语义错误的非对称后果,导致对ATC环境中LLMs的可靠性评估不足。
  2. 本文提出了一种安全导向、后果感知的评估框架,旨在更准确地评估ATC操作中的语言理解系统。
  3. 实验结果表明,尽管LLMs在聚合准确率上表现良好,但其在实际操作中的可靠性仍然有限,最高风险评分仅为0.69。

📝 摘要(中文)

空中交通管制(ATC)是一个安全关键领域,错误的指令理解可能导致严重的操作后果。尽管大型语言模型(LLMs)在一般性能上表现良好,但其在ATC环境中的可靠性仍不明确。现有评估方法主要基于聚合指标,如F1或宏观准确率,未能考虑高风险语义错误的非对称后果。为此,本文提出了一种针对ATC操作的安全导向、后果感知的评估框架。研究结果显示,尽管当前LLMs在聚合准确率上表现合理,但其操作可靠性严重受限。经过清晰转录的评估中,最高风险评分仅为0.69,大多数模型得分低于0.6,尽管宏观F1表现较高。这些发现强调了在AI辅助ATC系统的负责任部署中,后果感知评估协议的必要性。

🔬 方法详解

问题定义:本文旨在解决空中交通管制(ATC)中语言理解系统的评估不足,现有方法未能考虑高风险语义错误的后果,导致对模型可靠性的评估不够全面。

核心思路:提出一种安全导向、后果感知的评估框架,旨在通过考虑错误的后果来提高评估的准确性和可靠性,从而更好地适应ATC的安全需求。

技术框架:该框架包括数据收集、风险评分计算和后果分析三个主要模块。首先,收集ATC操作中的真实指令数据;其次,基于错误类型计算风险评分;最后,分析不同错误对操作安全的影响。

关键创新:最重要的创新在于引入了风险评分的概念,能够量化不同类型错误的潜在后果,与现有方法的聚合评估指标形成鲜明对比。

关键设计:在评估过程中,设置了特定的损失函数以强调高风险错误,并采用了多种模型进行对比实验,以验证框架的有效性和可靠性。具体参数设置和网络结构细节在实验部分进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,当前LLMs在聚合准确率上表现良好,但其操作可靠性严重受限,最高风险评分仅为0.69,大多数模型得分低于0.6。这表明,尽管宏观F1表现较高,但在高影响实体的错误集中,模型的实际应用能力仍需提升。

🎯 应用场景

该研究的潜在应用领域包括空中交通管制、航空安全和自动化控制系统。通过提升语言理解系统的评估标准,可以有效减少因指令误解导致的安全隐患,推动AI在ATC领域的负责任应用,未来可能影响全球航空运输的安全性和效率。

📄 摘要(原文)

Air Traffic Control (ATC) is a safety-critical domain in which incorrect interpretation of instructions may lead to severe operational consequences. While large language models (LLMs) demonstrate strong general performance, their reliability in operational ATC environments remains unclear. Existing evaluation approaches, largely based on aggregate metrics such as F1 or macro accuracy, treat all errors uniformly and fail to account for the asymmetric consequences of high-risk semantic mistakes (e.g., incorrect runway identifiers or movement constraints). To address this gap, we propose a safety-oriented, consequence-aware evaluation framework tailored to ATC operations. Our results reveal that while current LLMs achieve reasonable aggregate accuracy, their operational reliability is severely limited. Evaluated on clean transcripts, the peak Risk Score reaches only 0.69, with most models scoring below 0.6 despite high macro-F1 performance. Further analysis shows that errors concentrate in high-impact entities despite relatively stable action-type classification, indicating structural grounding deficiencies. These findings highlight the necessity of consequence-aware evaluation protocols for the responsible deployment of AI-assisted ATC systems.