Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

📄 arXiv: 2603.09231v1 📥 PDF

作者: Ding Linghu, Cheng Wang, Da Fan, Wei Shi, Kaifeng Yin, Xiaoliang Xue, Fan Yang, Haiyi Ren, Cong Zhang

分类: cs.AI

发布日期: 2026-03-10


💡 一句话要点

提出BD-FDG框架,用于领域自适应LLM在空间态势感知中的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 领域自适应 空间态势感知 监督微调 数据生成

📋 核心要点

  1. 现有LLM在空间态势感知等复杂工程领域应用受限,主要挑战在于缺乏高质量的领域特定监督微调数据集。
  2. BD-FDG框架通过结构化知识组织、认知分层问题建模和自动化质量控制,生成高质量的SFT数据集。
  3. 实验表明,基于BD-FDG微调的SSA-LLM-8B在领域测试集上显著提升,并保持了通用基准性能。

📝 摘要(中文)

大型语言模型(LLMs)在通用任务上表现出色。然而,由于与任务链的结构对齐不足、缺乏高阶认知监督以及数据质量标准与工程规范之间的对应关系较差,将它们迁移到空间态势感知(SSA)等复杂工程领域仍然具有挑战性。核心瓶颈在于构建高质量的监督微调(SFT)数据集。为此,我们提出了BD-FDG(基于布鲁姆分类法的领域特定微调数据生成)框架,该框架通过结构化知识组织、认知分层问题建模和自动化质量控制三种机制,解决了知识覆盖不完整、认知深度浅薄和质量可控性有限的问题。该框架使用知识树来确保结构化的语料库覆盖,设计了一个跨越九个类别和六个认知级别(从记忆到创造)的问题生成方案,以生成具有连续难度梯度的样本,并应用多维评分管道来加强领域严谨性和一致性。使用BD-FDG,我们构建了SSA-SFT,一个包含约230K个样本的领域数据集,并对Qwen3-8B进行微调以获得SSA-LLM-8B。实验表明,SSA-LLM-8B在领域测试集上实现了144%(no-think)和176%(think)的相对BLEU-1改进,并且在竞技场比较中相对于基线的胜率为82.21%,同时在很大程度上保留了一般基准性能(MMLU-Pro,MATH-500)。这些结果验证了由认知分层驱动的SFT数据构建是复杂工程领域的一种有效范例,并为领域特定的LLM自适应提供了一个可转移的框架。

🔬 方法详解

问题定义:论文旨在解决将大型语言模型(LLMs)应用于空间态势感知(SSA)领域时,由于缺乏高质量的领域特定监督微调(SFT)数据集而导致的性能瓶颈问题。现有方法在知识覆盖、认知深度和质量控制方面存在不足,无法满足复杂工程领域的需求。

核心思路:论文的核心思路是通过构建一个基于布鲁姆分类法的领域特定微调数据生成(BD-FDG)框架,有针对性地生成高质量的SFT数据集。该框架旨在解决知识覆盖不完整、认知深度浅薄和质量可控性有限的问题,从而提升LLM在SSA领域的性能。

技术框架:BD-FDG框架包含三个主要模块:1) 结构化知识组织:使用知识树来确保语料库的全面覆盖。2) 认知分层问题建模:设计一个跨越九个类别和六个认知级别(从记忆到创造)的问题生成方案,以生成具有连续难度梯度的样本。3) 自动化质量控制:应用多维评分管道来加强领域严谨性和一致性。该框架首先构建领域知识树,然后基于知识树生成不同认知层次的问题,最后通过质量控制模块筛选高质量数据。

关键创新:该论文的关键创新在于提出了一个认知分层的数据生成框架,该框架能够根据布鲁姆分类法生成具有不同认知难度的问题,从而更好地训练LLM。与传统的数据生成方法相比,BD-FDG框架更加注重数据的质量和认知深度,能够更好地满足复杂工程领域的需求。

关键设计:在知识树构建方面,需要领域专家参与,确保知识的准确性和完整性。在问题生成方面,需要仔细设计问题模板,以确保问题能够覆盖不同的认知层次。在质量控制方面,需要设计多维评分指标,例如领域相关性、答案正确性、语言流畅性等,以确保数据的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用BD-FDG框架构建的SSA-SFT数据集微调的SSA-LLM-8B在领域测试集上实现了显著的性能提升,BLEU-1指标分别提升了144%(no-think)和176%(think)。在竞技场比较中,SSA-LLM-8B相对于基线的胜率为82.21%,同时保持了通用基准性能(MMLU-Pro,MATH-500)。

🎯 应用场景

该研究成果可应用于空间态势感知领域,例如空间目标监测、威胁评估、碰撞规避等。通过提升LLM在SSA领域的理解和推理能力,可以提高空间任务的自动化水平和决策效率,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

Large language models (LLMs) demonstrate exceptional performance on general-purpose tasks. however, transferring them to complex engineering domains such as space situational awareness (SSA) remains challenging owing to insufficient structural alignment with mission chains, the absence of higher-order cognitive supervision, and poor correspondence between data quality criteria and engineering specifications. The core bottleneck is the construction of high-quality supervised fine-tuning (SFT) datasets. To this end, we propose BD-FDG (Bloom's Taxonomy-based Domain-specific Fine-tuning Data Generation), a framework that addresses incomplete knowledge coverage, shallow cognitive depth, and limited quality controllability through three mechanisms: structured knowledge organization, cognitively layered question modeling, and automated quality control. The framework uses a knowledge tree to ensure structured corpus coverage, designs a question generation scheme spanning nine categories and six cognitive levels from Remember to Create to produce samples with a continuous difficulty gradient, and applies a multidimensional scoring pipeline to enforce domain rigor and consistency. Using BD-FDG, we construct SSA-SFT, a domain dataset of approximately 230K samples, and fine-tune Qwen3-8B to obtain SSA-LLM-8B. Experiments show that SSA-LLM-8B achieves relative BLEU-1 improvements of 144\% (no-think) and 176\% (think) on the domain test set and a win rate of 82.21\% over the baseline in arena comparisons, while largely preserving general benchmark performance (MMLU-Pro, MATH-500). These results validate SFT data construction driven by cognitive layering as an effective paradigm for complex engineering domains and provide a transferable framework for domain-specific LLM adaptation.