Automatically Generating Numerous Context-Driven SFT Data for LLMs across Diverse Granularity

作者: Shanghaoran Quan

分类: cs.CL

发布日期: 2024-05-26

🔗 代码/项目: GITHUB

💡 一句话要点

提出AugCon，自动生成多粒度上下文驱动的SFT数据，提升LLM微调效果。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 监督微调 大型语言模型 数据生成 上下文学习 对比学习

📋 核心要点

现有自动化SFT数据生成方法难以捕捉上下文粒度的多样性，且容易产生同质化数据，限制了LLM微调效果。
AugCon通过Context-Split-Tree递归生成query，并结合对比学习训练的评分器进行query排序和优化，实现多粒度覆盖。
AugCon融合自对齐和自改进机制，提升生成response的保真度。实验证明，该方法在多样性、质量和保真度上优于现有方法。

📝 摘要（中文）

为了在领域特定AI助手或角色扮演代理等应用中，高效地为大型语言模型（LLM）的监督微调（SFT）构建高质量的query-response对，本文提出了一种名为AugCon的新方法。AugCon能够自动生成具有高多样性、质量和保真度的多粒度上下文驱动的SFT数据。该方法首先使用Context-Split-Tree（CST）生成query，这是一种递归地推导query和分割上下文以覆盖完整粒度的新颖方法。然后，训练一个评分器，通过对比学习与CST协作来对query进行排序和细化。最后，引入自对齐和自改进的协同集成来获得高保真度的response。广泛的实验，包括人工和自动评估，涵盖了一个测试场景和四个广泛使用的英语和中文基准，结果突出了AugCon在生成高多样性、高质量和高保真度SFT数据方面的显著优势。

🔬 方法详解

问题定义：论文旨在解决为大型语言模型（LLM）的监督微调（SFT）自动生成高质量、多样化且具有上下文感知能力的训练数据的问题。现有方法，如人工标注成本高昂，而自动生成方法往往无法捕捉到上下文粒度的多样性，导致生成的数据同质化，限制了微调后LLM的性能。

核心思路：AugCon的核心思路是利用一种新颖的Context-Split-Tree（CST）结构，递归地分割上下文并生成query，从而覆盖不同粒度的上下文信息。同时，通过对比学习训练一个评分器，用于评估和优化生成的query，确保query的质量。此外，采用自对齐和自改进机制来提升生成response的保真度，使其与query更加一致。

技术框架：AugCon的整体框架包含三个主要阶段：1) Query生成：利用Context-Split-Tree（CST）递归地分割上下文，生成多粒度的query。2) Query优化：通过对比学习训练一个评分器，与CST协同工作，对生成的query进行排序和细化。3) Response生成：采用自对齐和自改进机制，生成与query对应的高保真度response。

关键创新：AugCon的关键创新在于Context-Split-Tree（CST）结构和自对齐/自改进的response生成机制。CST能够有效地覆盖不同粒度的上下文信息，从而生成多样化的query。自对齐和自改进机制则能够确保生成的response与query高度一致，提升数据的保真度。与现有方法相比，AugCon能够生成更高质量、更多样化且更具上下文感知能力的SFT数据。

关键设计：Context-Split-Tree（CST）的具体实现细节，包括如何定义分割规则、如何控制分割的粒度等，是影响query生成效果的关键。对比学习训练评分器的损失函数设计，以及自对齐和自改进机制的具体实现方式，例如使用的prompt模板、迭代次数等，都会影响response的质量和保真度。论文中可能还涉及一些超参数的设置，例如学习率、batch size等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AugCon在生成SFT数据方面显著优于现有方法。在多样性、质量和保真度三个指标上，AugCon均取得了明显的提升。具体性能数据（例如，在特定benchmark上的提升幅度）需要在论文中查找。通过人工和自动评估，验证了AugCon生成的数据能够有效提升LLM的微调效果。

🎯 应用场景

AugCon可广泛应用于各种需要领域特定LLM微调的场景，例如构建专业的AI助手、开发角色扮演代理、以及提升LLM在特定行业或任务中的表现。该方法能够降低SFT数据的获取成本，提高数据质量，从而加速LLM在各个领域的应用落地，并有望推动个性化AI服务的普及。

📄 摘要（原文）

Constructing high-quality query-response pairs from custom corpus is crucial for supervised fine-tuning (SFT) large language models (LLMs) in many applications, like creating domain-specific AI assistants or roleplaying agents. However, sourcing this data through human annotation is costly, and existing automated methods often fail to capture the diverse range of contextual granularity and tend to produce homogeneous data. To tackle these issues, we introduce a novel method named AugCon, capable of automatically generating context-driven SFT data across multiple levels of granularity with high diversity, quality and fidelity. AugCon begins by generating queries using the Context-Split-Tree (CST), an innovative approach for recursively deriving queries and splitting context to cover full granularity. Then, we train a scorer through contrastive learning to collaborate with CST to rank and refine queries. Finally, a synergistic integration of self-alignment and self-improving is introduced to obtain high-fidelity responses. Extensive experiments are conducted incorporating both human and automatic evaluations, encompassing a test scenario and four widely-used benchmarks in English and Chinese. The results highlight the significant advantages of AugCon in producing high diversity, quality, and fidelity SFT data against several state-of-the-art methods. All of our code, dataset, and fine-tuned model will be available at: https://github.com/quanshr/AugCon.

Automatically Generating Numerous Context-Driven SFT Data for LLMs across Diverse Granularity

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理