Towards Compositional Generalization of LLMs via Skill Taxonomy Guided Data Synthesis
作者: Yifan Wei, Li Du, Xiaoyan Yu, Yang Feng, Angsheng Li
分类: cs.CL, cs.AI
发布日期: 2026-01-07
备注: The code and data for our methods and experiments are available at https://github.com/weiyifan1023/STEPS
💡 一句话要点
提出STEPS框架,通过技能分类引导的数据合成提升LLM的组合泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合泛化 大型语言模型 数据合成 技能分类 信息最大化
📋 核心要点
- LLM在组合泛化方面表现不佳,主要原因是复杂技能组合的数据分布长尾效应,导致训练数据不足。
- STEPS框架通过构建技能分类体系,并在此基础上进行数据合成,从而显式地提升LLM的组合泛化能力。
- 实验结果表明,STEPS在指令遵循和Agent任务中均优于现有数据合成方法,提升了组合泛化性能。
📝 摘要(中文)
大型语言模型(LLMs)和基于Agent的系统在组合泛化方面常常面临挑战,这是由于复杂技能组合的数据分布呈现长尾效应,限制了指令遵循性能和Agent任务中的泛化能力。为了解决这个问题,我们提出了STEPS,一个基于技能分类引导的熵后训练数据合成框架,用于生成具有组合挑战性的数据。STEPS通过揭示技能之间的潜在关系,并利用结构信息理论将它们组织成一个可解释的、分层的技能分类,从而显式地针对组合泛化。在此分类的基础上,我们将数据合成表述为一个约束信息最大化问题,选择在层级结构中最大化边际结构信息,同时保持语义连贯性的技能组合。在具有挑战性的指令遵循基准上的实验表明,STEPS优于现有的数据合成基线,同时在下游基于Agent的评估中也产生了改进的组合泛化。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在组合泛化方面的不足。现有的LLM在处理复杂指令或Agent任务时,由于训练数据中复杂技能组合的样本稀少,导致模型难以泛化到未见过的技能组合。这种数据瓶颈是组合泛化的主要痛点。
核心思路:论文的核心思路是通过主动数据合成来缓解数据稀疏问题。具体而言,首先构建一个技能分类体系,然后基于该体系,通过信息最大化的方法选择具有代表性的技能组合进行数据合成。这样可以有效地增加模型对复杂技能组合的 exposure,从而提升组合泛化能力。
技术框架:STEPS框架包含以下几个主要模块:1) 技能分类构建:利用结构信息理论,从现有数据中学习技能之间的关系,构建一个层次化的技能分类体系。2) 数据合成:将数据合成问题建模为一个约束信息最大化问题,目标是在技能分类体系中选择能够最大化边际结构信息的技能组合。3) 后训练:使用合成的数据对LLM进行后训练,提升其组合泛化能力。
关键创新:STEPS的关键创新在于其显式地利用技能分类体系来指导数据合成。与以往的数据增强方法不同,STEPS不是随机地生成数据,而是有目的地选择具有代表性的技能组合,从而更有效地提升模型的泛化能力。此外,将数据合成建模为约束信息最大化问题,保证了合成数据的多样性和信息量。
关键设计:技能分类体系的构建依赖于结构信息理论,具体实现方式未知。数据合成阶段,需要定义一个合适的边际结构信息度量,以及约束条件(例如,语义连贯性)。后训练阶段,需要选择合适的损失函数和训练策略,以充分利用合成的数据。
📊 实验亮点
STEPS在指令遵循基准测试中优于现有的数据合成基线,表明其能够更有效地提升LLM的组合泛化能力。此外,在下游基于Agent的评估中,STEPS也取得了显著的性能提升,验证了其在实际应用中的有效性。具体的性能数据和提升幅度在论文中未明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于各种需要复杂指令遵循和组合泛化的场景,例如智能Agent、机器人控制、自然语言处理等。通过提升LLM的组合泛化能力,可以使Agent更好地理解和执行复杂的任务,从而提高其在实际应用中的效率和可靠性。未来,该方法可以进一步扩展到其他领域,例如代码生成、知识图谱推理等。
📄 摘要(原文)
Large Language Models (LLMs) and agent-based systems often struggle with compositional generalization due to a data bottleneck in which complex skill combinations follow a long-tailed, power-law distribution, limiting both instruction-following performance and generalization in agent-centric tasks. To address this challenge, we propose STEPS, a Skill Taxonomy guided Entropy-based Post-training data Synthesis framework for generating compositionally challenging data. STEPS explicitly targets compositional generalization by uncovering latent relationships among skills and organizing them into an interpretable, hierarchical skill taxonomy using structural information theory. Building on this taxonomy, we formulate data synthesis as a constrained information maximization problem, selecting skill combinations that maximize marginal structural information within the hierarchy while preserving semantic coherence. Experiments on challenging instruction-following benchmarks show that STEPS outperforms existing data synthesis baselines, while also yielding improved compositional generalization in downstream agent-based evaluations.