Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems

📄 arXiv: 2603.28561v1 📥 PDF

作者: Iman Sharifi, Alex Zongo, Peng Wei

分类: cs.RO, cs.AI

发布日期: 2026-03-30

备注: 15 pages, 6 figures, to be published in CVPR 2026 Workshop Proceedings


💡 一句话要点

微调大语言模型,解决小型无人机系统协同战术冲突消解问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 无人机交通管理 战术冲突消解 参数高效微调 低秩适应 组相对策略优化 多智能体系统

📋 核心要点

  1. 现有方法难以在复杂空域中实现小型无人机系统间的安全高效协同冲突消解,面临领域知识不足和决策不一致的挑战。
  2. 论文提出基于微调大语言模型的方法,通过模拟数据生成和参数高效微调,使模型学习人类操作员的启发式规则。
  3. 实验表明,监督LoRA微调显著提升了决策准确性、一致性和分离性能,有效减少了空中接近相撞事件的发生。

📝 摘要(中文)

在低空空域中日益增多的小型无人机系统(sUASs)部署,对安全约束下的可靠战术冲突消解提出了更高要求。战术冲突消解涉及在密集、部分可观测和异构多智能体环境中的短期决策,既要保证合作分离安全,又要维持运行效率。虽然大型语言模型(LLMs)表现出强大的推理能力,但由于领域知识不足和输出不一致,其在空中交通管制中的直接应用仍然受限。本文研究了LLMs作为协同多智能体战术冲突消解中的决策者,采用微调策略使模型输出与人类操作员的启发式方法对齐。我们提出了一个基于BlueSky空中交通模拟器的模拟到语言数据生成流程,该流程生成反映既定安全实践的规则一致的冲突消解数据集。使用两种参数高效策略对预训练的Qwen-Math-7B模型进行微调:使用低秩适应(LoRA)的监督微调和结合LoRA与组相对策略优化(GRPO)的基于偏好的微调。在验证数据集和闭环模拟上的实验结果表明,与预训练的LLM相比,监督LoRA微调显著提高了决策准确性、一致性和分离性能,并显著减少了空中接近相撞事件。GRPO提供了额外的协调优势,但在与异构智能体策略交互时表现出较低的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决低空空域中大量小型无人机系统(sUASs)的战术冲突消解问题。现有方法在处理这种复杂、动态和部分可观测的多智能体环境时,面临着领域知识不足、决策不一致以及难以保证安全性和效率的挑战。传统的空管方法难以扩展到大规模无人机系统,而直接应用大型语言模型(LLMs)又缺乏足够的领域 grounding。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大推理能力,并通过微调使其适应无人机战术冲突消解任务。通过模拟生成符合空管规则的数据集,然后使用参数高效的微调方法,将人类操作员的启发式知识注入到LLM中,从而提高决策的准确性、一致性和安全性。

技术框架:整体框架包括以下几个主要阶段:1) 基于BlueSky模拟器生成模拟数据,并将其转换为自然语言描述;2) 选择预训练的Qwen-Math-7B模型作为基础模型;3) 使用两种参数高效的微调策略:监督微调(SFT)与低秩适应(LoRA)和基于偏好的微调,结合LoRA与组相对策略优化(GRPO);4) 在验证数据集和闭环模拟中评估微调后的模型性能。

关键创新:论文的关键创新在于:1) 提出了一个模拟到语言的数据生成流程,能够生成符合空管规则的冲突消解数据集;2) 探索了使用参数高效微调策略(LoRA和GRPO)来调整LLM,使其适应无人机战术冲突消解任务;3) 验证了微调后的LLM在提高决策准确性、一致性和分离性能方面的有效性。

关键设计:在数据生成方面,论文使用BlueSky模拟器模拟各种冲突场景,并记录无人机的状态、动作和环境信息。然后,将这些信息转换为自然语言描述,作为LLM的输入和输出。在微调方面,论文使用了LoRA来减少训练参数,并使用了GRPO来鼓励智能体之间的合作。具体的损失函数和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过监督LoRA微调的LLM在决策准确性、一致性和分离性能方面均优于预训练模型,近空中相撞事件显著减少。GRPO微调虽然能带来额外的协调优势,但在与异构策略智能体交互时鲁棒性有所下降。具体性能提升数据未在摘要中给出,属于未知信息。

🎯 应用场景

该研究成果可应用于未来的无人机交通管理系统(UTM),提升低空空域的安全性与效率。通过将LLM融入决策流程,有望实现更智能、更自主的冲突消解,减少人为干预,并支持更大规模的无人机运营。此外,该方法也可推广到其他多智能体协作场景,如自动驾驶、机器人集群等。

📄 摘要(原文)

The growing deployment of small Unmanned Aerial Systems (sUASs) in low-altitude airspaces has increased the need for reliable tactical deconfliction under safety-critical constraints. Tactical deconfliction involves short-horizon decision-making in dense, partially observable, and heterogeneous multi-agent environments, where both cooperative separation assurance and operational efficiency must be maintained. While Large Language Models (LLMs) exhibit strong reasoning capabilities, their direct application to air traffic control remains limited by insufficient domain grounding and unpredictable output inconsistency. This paper investigates LLMs as decision-makers in cooperative multi-agent tactical deconfliction using fine-tuning strategies that align model outputs to human operator heuristics. We propose a simulation-to-language data generation pipeline based on the BlueSky air traffic simulator that produces rule-consistent deconfliction datasets reflecting established safety practices. A pretrained Qwen-Math-7B model is fine-tuned using two parameter-efficient strategies: supervised fine-tuning with Low-Rank Adaptation (LoRA) and preference-based fine-tuning combining LoRA with Group-Relative Policy Optimization (GRPO). Experimental results on validation datasets and closed-loop simulations demonstrate that supervised LoRA fine-tuning substantially improves decision accuracy, consistency, and separation performance compared to the pretrained LLM, with significant reductions in near mid-air collisions. GRPO provides additional coordination benefits but exhibits reduced robustness when interacting with heterogeneous agent policies.