Hybrid Distillation with CoT Guidance for Edge-Drone Control Code Generation

📄 arXiv: 2601.08412v1 📥 PDF

作者: Yizhan Feng, Hichem Snoussi, Yuhang Wang, Jing Teng, Abel Cherouat, Tian Wang

分类: cs.AI

发布日期: 2026-01-13

备注: 2nd International Conference on Drones and Unmanned Systems (DAUS' 2026)


💡 一句话要点

提出基于混合蒸馏与CoT指导的边缘无人机控制代码生成方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机控制 代码生成 知识蒸馏 思维链 边缘计算

📋 核心要点

  1. 大型语言模型资源消耗高,难以满足无人机实时、轻量化控制需求。
  2. 提出混合蒸馏方法,结合思维链指导和监督微调,将复杂推理能力迁移到小型模型。
  3. 实验表明,蒸馏后的轻量级模型保持高代码生成精度,显著提升部署和推理效率。

📝 摘要(中文)

本文针对大型语言模型在资源受限的无人机平台实时控制应用中面临的资源消耗高问题,提出了一种集成知识蒸馏、思维链指导和监督微调的混合方法,用于无人机多SDK控制任务的代码生成。首先,构建了一个高质量数据集,涵盖主流无人机SDK,包含指令-代码-推理链,并加入对抗性负样本进行数据增强,引导模型学习从指令解析到代码生成的端到端逻辑。其次,利用QLoRA量化的DeepSeek-Coder-V2-Lite作为教师模型,采用混合黑盒和白盒蒸馏策略,生成高质量的思维链软标签,并结合加权交叉熵损失与硬标签,将复杂的推理能力迁移到小型学生模型。最后,通过针对无人机控制场景优化的提示工程,提升模型在SDK类型识别和函数调用匹配等核心任务上的性能。实验结果表明,蒸馏后的轻量级模型在保持高代码生成精度的同时,显著提高了部署和推理效率,有效验证了该方法在实现无人机精确和轻量级智能控制方面的可行性和优越性。

🔬 方法详解

问题定义:无人机(UAV)的机载控制需要实时、轻量级的代码生成能力,但大型语言模型(LLM)计算资源需求高,难以直接部署在资源受限的边缘设备上。现有方法要么依赖人工编写代码,效率低且难以维护,要么直接使用大型模型,无法满足实时性要求。因此,如何在保证代码生成质量的前提下,降低模型大小和计算复杂度,是亟待解决的问题。

核心思路:本文的核心思路是利用知识蒸馏技术,将大型教师模型(DeepSeek-Coder-V2-Lite)的知识迁移到小型学生模型。通过思维链(Chain-of-Thought, CoT)指导,让学生模型学习教师模型的推理过程,从而提升代码生成的准确性和可靠性。同时,结合混合蒸馏策略和提示工程,进一步优化模型性能。这样设计的目的是在保证性能的同时,显著降低模型大小和计算复杂度,使其能够部署在边缘无人机平台上。

技术框架:整体框架包含三个主要阶段:1) 数据集构建:构建包含指令-代码-推理链的高质量数据集,并使用对抗性负样本进行数据增强。2) 混合蒸馏:使用QLoRA量化的DeepSeek-Coder-V2-Lite作为教师模型,生成CoT软标签,并结合硬标签进行知识蒸馏。3) 提示工程:针对无人机控制场景优化提示,提升模型在SDK类型识别和函数调用匹配等核心任务上的性能。

关键创新:主要的创新点在于:1) 提出了混合黑盒和白盒蒸馏策略,充分利用教师模型的知识。2) 将思维链(CoT)指导引入到代码生成任务中,提升了模型的推理能力。3) 构建了包含指令-代码-推理链的高质量数据集,并使用对抗性负样本进行数据增强。与现有方法相比,该方法能够在保证代码生成质量的同时,显著降低模型大小和计算复杂度。

关键设计:在混合蒸馏中,使用了加权交叉熵损失函数,将硬标签损失和软标签损失结合起来,平衡了代码生成精度和推理能力。提示工程方面,针对无人机控制场景,设计了特定的提示模板,引导模型更好地理解指令并生成正确的代码。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。

📊 实验亮点

实验结果表明,该方法能够在保持高代码生成精度的同时,显著提高部署和推理效率。具体性能数据和对比基线在摘要中未提及,属于未知信息。但摘要强调了蒸馏后的轻量级模型在无人机控制任务中的可行性和优越性。

🎯 应用场景

该研究成果可应用于各种需要边缘计算的无人机控制场景,例如自主巡检、智能农业、灾害救援等。通过将大型语言模型的代码生成能力迁移到轻量级模型,可以实现无人机的智能化控制,提高其自主性和适应性,降低对地面站的依赖,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

With large language models demonstrating significant potential in code generation tasks, their application to onboard control of resource-constrained Unmanned Aerial Vehicles has emerged as an important research direction. However, a notable contradiction exists between the high resource consumption of large models and the real-time, lightweight requirements of UAV platforms. This paper proposes an integrated approach that combines knowledge distillation, chain-of-thought guidance, and supervised fine-tuning for UAV multi-SDK control tasks, aiming to efficiently transfer complex reasoning and code generation capabilities to smaller models. Firstly, a high-quality dataset covering various mainstream UAV SDKs is constructed, featuring instruction-code-reasoning chains, and incorporates counterfactual negative samples for data augmentation, guiding the model to learn the end-to-end logic from instruction parsing to code generation. Secondly, leveraging DeepSeek-Coder-V2-Lite quantized via QLoRA as the teacher model, and based on a hybrid black-box and white-box distillation strategy, high-quality chain-of-thought soft labels are generated. These are combined with a weighted cross-entropy loss using hard labels to transfer complex reasoning capabilities to the smaller student model. Finally, through prompt tuning engineering optimized for the UAV control scenario, the model performance on core tasks such as SDK type recognition and function call matching is enhanced. Experimental results indicate that the distilled lightweight model maintains high code generation accuracy while achieving significant improvements in deployment and inference efficiency, effectively demonstrating the feasibility and superiority of our approach in achieving precise and lightweight intelligent control for UAVs