DecIF: Improving Instruction-Following through Meta-Decomposition

📄 arXiv: 2505.13990v2 📥 PDF

作者: Tingfeng Hui, Pengyu Zhu, Bowen Ping, Ling Tang, Guanting Dong, Yaqi Zhang, Sen Su

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-06-11)

备注: We release the source code and SFT data in this version


💡 一句话要点

DecIF:通过元分解提升大型语言模型的指令跟随能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令跟随 大型语言模型 元分解 数据生成 自主学习

📋 核心要点

  1. 现有指令跟随方法依赖预先存在的文档或外部资源,限制了灵活性和泛化性。
  2. DecIF框架通过元分解引导LLMs自主生成高质量、多样化的指令跟随数据。
  3. 实验表明DecIF在指令跟随任务上表现优异,具有良好的灵活性、可扩展性和泛化性。

📝 摘要(中文)

指令跟随已成为大型语言模型(LLMs)的一项关键能力。然而,现有方法通常依赖于预先存在的文档或外部资源来合成指令跟随数据,这限制了它们的灵活性和泛化性。本文介绍DecIF,这是一个完全自主的、元分解引导的框架,它仅使用LLMs生成多样且高质量的指令跟随数据。DecIF基于分解原则。在指令生成方面,我们引导LLMs迭代地生成各种类型的元信息,然后将这些元信息与响应约束相结合,形成结构良好且语义丰富的指令。我们进一步利用LLMs来检测和解决生成的指令中潜在的不一致性。在响应生成方面,我们将每个指令分解为原子级别的评估标准,从而实现严格的验证并消除不准确的指令-响应对。在各种场景和设置下进行的大量实验表明,DecIF在指令跟随任务上表现出色。进一步的分析突出了其在自动合成高质量指令数据方面的强大灵活性、可扩展性和泛化性。

🔬 方法详解

问题定义:现有指令跟随数据生成方法依赖于外部资源,例如预先存在的文档或知识库,这限制了数据生成的多样性和泛化能力。此外,人工标注成本高昂,难以扩展到大规模数据集。因此,如何高效、自主地生成高质量的指令跟随数据是一个关键问题。

核心思路:DecIF的核心思路是利用大型语言模型(LLMs)的强大生成能力,通过元分解的方式,将复杂的指令生成任务分解为多个更小的、更易于控制的子任务。通过迭代生成元信息并结合响应约束,可以生成结构良好且语义丰富的指令。同时,利用LLMs进行一致性检测和响应验证,保证生成数据的质量。

技术框架:DecIF框架包含指令生成和响应生成两个主要阶段。在指令生成阶段,首先引导LLMs生成各种类型的元信息,例如指令的目标、约束、上下文等。然后,将这些元信息与响应约束相结合,形成完整的指令。利用LLMs检测指令中潜在的不一致性并进行修正。在响应生成阶段,将每个指令分解为原子级别的评估标准,利用这些标准对生成的响应进行严格验证,并消除不准确的指令-响应对。

关键创新:DecIF的关键创新在于其完全自主的元分解引导方法。与现有方法相比,DecIF不需要依赖外部资源,而是完全依靠LLMs自身的能力来生成指令跟随数据。这种方法具有更高的灵活性、可扩展性和泛化性。此外,利用LLMs进行一致性检测和响应验证,可以有效提高生成数据的质量。

关键设计:DecIF在指令生成阶段,设计了多种类型的元信息,例如指令的目标、约束、上下文等,以丰富指令的语义信息。在响应生成阶段,将指令分解为原子级别的评估标准,例如正确性、完整性、相关性等,以实现对响应的细粒度验证。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过大量实验验证了DecIF的有效性。实验结果表明,DecIF在指令跟随任务上表现出色,能够生成高质量的指令跟随数据。与现有方法相比,DecIF在多个指标上取得了显著提升,具体性能数据和提升幅度在论文中进行了详细展示。

🎯 应用场景

DecIF框架可应用于各种需要指令跟随能力的场景,例如对话系统、智能助手、机器人控制等。通过自动生成高质量的指令跟随数据,可以有效提升这些系统的性能和用户体验。该研究的成果有助于推动LLMs在更广泛领域的应用,并降低指令跟随数据获取的成本。

📄 摘要(原文)

Instruction-following has emerged as a crucial capability for large language models (LLMs). However, existing approaches often rely on pre-existing documents or external resources to synthesize instruction-following data, which limits their flexibility and generalizability. In this paper, we introduce DecIF, a fully autonomous, meta-decomposition guided framework that generates diverse and high-quality instruction-following data using only LLMs. DecIF is grounded in the principle of decomposition. For instruction generation, we guide LLMs to iteratively produce various types of meta-information, which are then combined with response constraints to form well-structured and semantically rich instructions. We further utilize LLMs to detect and resolve potential inconsistencies within the generated instructions. Regarding response generation, we decompose each instruction into atomic-level evaluation criteria, enabling rigorous validation and the elimination of inaccurate instruction-response pairs. Extensive experiments across a wide range of scenarios and settings demonstrate DecIF's superior performance on instruction-following tasks. Further analysis highlights its strong flexibility, scalability, and generalizability in automatically synthesizing high-quality instruction data.