Synthesizing Instruction-Tuning Datasets with Contrastive Decoding
作者: Tatsuya Ichinose, Youmi Ma, Masanari Oi, Ryuto Koike, Naoaki Okazaki
分类: cs.CL
发布日期: 2026-04-15
备注: 24 pages, 7 figures
💡 一句话要点
提出CoDIT方法,通过对比解码合成指令调优数据集,提升模型指令遵循能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令调优 对比解码 数据集合成 大语言模型 指令遵循 知识蒸馏 人机交互
📋 核心要点
- 现有指令调优方法忽略了LLM生成响应中预训练知识与指令遵循能力混淆的问题。
- CoDIT通过对比解码,抑制预训练知识,放大指令遵循行为,生成更纯粹的指令遵循响应。
- 实验表明,CoDIT生成的数据集训练的模型,性能优于直接生成响应和现有公开数据集。
📝 摘要(中文)
本文提出了一种名为CoDIT的方法,用于合成指令调优数据集。该方法的核心思想是,利用对比解码技术,在指令调优模型的响应生成过程中,抑制预训练模型中固有的世界知识,并放大指令调优后获得的指令遵循能力。具体而言,CoDIT在后训练模型及其预训练模型之间应用对比解码,从而生成更能纯粹反映指令遵循能力的响应。实验结果表明,使用CoDIT构建的数据集训练的模型,在多个基准测试中,始终优于直接生成的响应训练的模型,也优于使用现有公开指令调优数据集训练的模型。此外,理论和实验结果表明,CoDIT可以将聊天向量从参数空间提炼到文本空间,从而实现跨不同架构模型之间的指令调优能力迁移。
🔬 方法详解
问题定义:现有指令调优方法生成的响应,包含了预训练阶段学习到的世界知识和指令调优阶段学习到的指令遵循能力,两者相互混淆,影响了指令调优的有效性。论文旨在解决如何分离和提纯指令遵循能力,从而生成更有效的指令调优数据集的问题。
核心思路:论文的核心思路是利用对比解码,通过比较指令调优后的模型和预训练模型在生成响应时的差异,来抑制预训练知识的影响,并放大指令调优带来的指令遵循能力。这样生成的响应能够更纯粹地反映模型的指令遵循能力。
技术框架:CoDIT方法的核心在于对比解码过程。首先,使用指令调优后的模型和预训练模型对同一指令生成响应。然后,通过对比两个模型生成响应的概率分布,抑制预训练模型概率高的token,并放大指令调优模型概率高的token。最终,生成更符合指令遵循要求的响应。
关键创新:CoDIT的关键创新在于将对比解码应用于指令调优数据集的合成。通过对比解码,能够有效地分离和提纯指令遵循能力,从而生成更有效的指令调优数据集。此外,论文还提出了将聊天向量从参数空间提炼到文本空间的观点,为跨模型迁移指令调优能力提供了新的思路。
关键设计:CoDIT的关键设计包括:1) 选择合适的预训练模型和指令调优模型进行对比解码;2) 设计合适的对比解码策略,例如,如何计算两个模型生成响应的概率差异,以及如何根据差异调整token的概率;3) 确定合适的超参数,例如,对比解码的强度系数等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用CoDIT生成的数据集训练的模型,在多个基准测试中,性能始终优于使用直接生成的响应训练的模型,以及使用现有公开指令调优数据集训练的模型。具体性能提升幅度未知,但结论表明CoDIT在提升模型指令遵循能力方面具有显著优势。
🎯 应用场景
CoDIT方法可应用于各种需要指令调优的大语言模型,尤其是在资源有限的情况下,可以利用CoDIT生成高质量的指令调优数据集,提升模型的指令遵循能力和泛化能力。该方法有助于构建更智能、更可靠的对话系统和AI助手,并促进人机交互的自然性和效率。
📄 摘要(原文)
Using responses generated by high-performing large language models (LLMs) for instruction tuning has become a widely adopted approach. However, the existing literature overlooks a property of LLM-generated responses: they conflate world knowledge acquired during pre-training with instruction-following capabilities acquired during post-training. We hypothesize that disentangling the instruction-following capabilities from pre-trained knowledge improves the effectiveness of instruction tuning. To this end, we propose CoDIT, a method that applies contrastive decoding between a post-trained model and its pre-trained counterpart during response generation. The method suppresses pre-trained knowledge shared between the two models while amplifying the instruction-following behavior acquired via post-training, resulting in responses that more purely reflect instruction-following capabilities. Experiment results demonstrate that models trained on datasets constructed via CoDIT consistently outperform those trained on directly generated responses. Training on our datasets also yields better performance than on existing publicly available instruction-tuning datasets across multiple benchmarks. Furthermore, we theoretically and empirically show that CoDIT can be interpreted as distilling the chat vector from parameter space to text space, enabling the transfer of instruction-tuning capabilities across models of different architectures.