Towards Automated Air Traffic Safety Assessment Around Non-Towered Airports Using Large Language Models
作者: Torsten Darrell, Mahyar Ghazanfari, Jordan Kam, Alexandre Bayen, Amin Tabrizian, Peng Wei
分类: cs.AI
发布日期: 2026-05-12
备注: 25 pages, 17 figures, 5 tables, Accepted to AIAA 2026
💡 一句话要点
提出基于大语言模型的非塔台机场空域安全自动评估框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 非塔台机场 空域安全 大型语言模型 视觉-语言模型 多模态融合 安全评估 自动化
📋 核心要点
- 非塔台机场依赖飞行员自我通报,缺乏有效监控手段,导致安全风险较高,亟需自动化安全评估方法。
- 提出一种基于视觉-语言模型(VLM)的框架,融合CTAF通信、METAR天气、ADS-B轨迹和VFR图表等多模态信息。
- 初步实验表明,该框架能有效识别违规行为,并在合成数据集上取得了超过0.85的宏F1分数,验证了其潜力。
📝 摘要(中文)
本文研究了使用大型语言模型(LLM)进行非塔台机场飞行后安全分析的框架。非塔台机场依赖通用交通咨询频率(CTAF)进行空中交通协调,由于飞行员的自我通报通信协议,经常发生空中接近相撞事件。我们提出了一种通用的视觉-语言模型(VLM)方法,用于分析CTAF无线电通信的自然语言转录、气象机场报告(METAR)天气数据、自动相关监视-广播(ADS-B)飞行轨迹以及机场的目视飞行规则剖面图。我们对半月湾机场进行了初步研究,包括一个定性的真实案例研究和一个使用新的通信和天气模态合成数据集进行的定量评估。我们使用Gemini 2.5 Pro在真实飞行数据上定性地评估了我们的框架,证明了对让路违规的准确识别。合成数据集源自真实示例,包括一个12类危险分类,并用于对六个LLM模型(Qwen 2.5-7B、Mistral-7B、Gemma-2-9B、GPT-4o、GPT-5.4、Claude Sonnet 4.6)进行基准测试,输入仅限于CTAF和METAR。即使仅限于CTAF和METAR输入以及开源LLM,我们的框架实例通常在二元名义/危险分类任务上实现高于0.85的宏F1分数。未来的工作包括跨所有模态的定量评估和更大数量的真实示例。总而言之,我们的结果表明,对非塔台机场安全性的VLM分析可能是一项有价值的未来能力。
🔬 方法详解
问题定义:论文旨在解决非塔台机场空域安全评估问题。现有方法依赖人工分析,效率低且易出错。飞行员的自我通报机制存在信息不完整、沟通不畅等问题,导致潜在的空中接近相撞风险。因此,需要一种自动化的、能够综合多源信息进行安全评估的系统。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言理解和推理能力,结合视觉信息,对非塔台机场的空域安全态势进行综合分析。通过将CTAF通信、METAR天气数据、ADS-B飞行轨迹和VFR图表等多模态信息融合,LLM能够理解飞行员的意图、识别潜在的危险情况,并进行风险评估。
技术框架:该框架主要包含以下几个模块:1) 数据采集模块:负责收集CTAF通信记录、METAR天气数据、ADS-B飞行轨迹和VFR图表等信息。2) 数据预处理模块:对收集到的数据进行清洗、转换和格式化,使其能够被LLM处理。3) VLM分析模块:将预处理后的多模态数据输入到VLM中,利用LLM进行自然语言理解、推理和风险评估。4) 结果输出模块:将VLM的分析结果以易于理解的方式呈现给用户,例如,识别出的违规行为、潜在的危险情况等。
关键创新:该论文的关键创新在于将VLM应用于非塔台机场的空域安全评估。与传统的基于规则或统计模型的安全评估方法相比,VLM能够更好地理解自然语言描述的飞行员意图,并能够综合多模态信息进行更准确的风险评估。此外,该论文还提出了一个包含12类危险分类的合成数据集,用于评估不同LLM模型的性能。
关键设计:论文中,VLM的具体选择和训练是关键设计。虽然论文中没有详细说明VLM的具体架构和训练细节,但可以推断,VLM需要具备强大的多模态融合能力和自然语言理解能力。此外,合成数据集的设计也至关重要,需要尽可能地模拟真实场景,并包含各种类型的危险情况,以便能够有效地评估LLM模型的性能。
🖼️ 关键图片
📊 实验亮点
在半月湾机场的真实飞行数据上,Gemini 2.5 Pro成功识别了一起让路违规事件,验证了该框架的有效性。在合成数据集上,即使仅使用CTAF和METAR数据以及开源LLM,该框架在二元名义/危险分类任务上也能达到高于0.85的宏F1分数。
🎯 应用场景
该研究成果可应用于开发非塔台机场的自动化安全监控系统,提升空域安全水平,减少飞行事故。此外,该方法还可扩展到其他交通安全领域,例如自动驾驶汽车、无人机交通管理等,具有广阔的应用前景。
📄 摘要(原文)
We investigate frameworks for post-flight safety analysis at non-towered airports using large language models (LLMs). Non-towered airports rely on the Common Traffic Advisory Frequency (CTAF) for air traffic coordination and experience frequent near mid-air collisions due to the pilot self-announcement communication protocol. We propose a general vision-language model (VLM) approach to analyze the transcribed CTAF radio communications in natural language, METeorological Aerodrome Report (METAR) weather data, Automatic Dependent Surveillance-Broadcast (ADS-B) flight trajectories, and Visual Flight Rules sectional charts of the airfield. We provide a preliminary study at Half Moon Bay Airport, with a qualitative real world case study and a quantitative evaluation using a new synthetic dataset of communications and weather modalities. We qualitatively evaluate our framework on real flight data using Gemini 2.5 Pro, demonstrating accurate identification of a right-of-way violation. The synthetic dataset is derived from real examples and includes a 12-category hazard taxonomy, and is used to benchmark three open-source (Qwen 2.5-7B, Mistral-7B, Gemma-2-9B) and three closed-source (GPT-4o, GPT-5.4, Claude Sonnet 4.6) LLM models on the subset of inputs related to CTAF and METAR. Even limited to CTAF and METAR inputs and open source LLMs, instances of our framework typically achieve a macro F1 score above 0.85 on a binary nominal/danger classification task. Future work includes a quantitative evaluation across all modalities and a larger number of real world examples. Taken together, our results suggest that VLM analysis of safety at non-towered airports may be a valuable future capability.