Constraint Back-translation Improves Complex Instruction Following of Large Language Models
作者: Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
分类: cs.CL, cs.AI
发布日期: 2024-10-31 (更新: 2025-04-29)
备注: 14 pages, 6 figures
💡 一句话要点
提出约束反向翻译方法,提升大语言模型复杂指令遵循能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 指令遵循 约束反向翻译 数据增强 后训练
📋 核心要点
- 现有大语言模型难以有效遵循包含复杂约束的指令,指令调优数据质量受限于生成模型的指令遵循能力。
- 提出约束反向翻译方法,利用高质量指令-响应对,通过添加响应已满足的约束来生成高质量复杂指令数据。
- 构建CRAB数据集并在其上进行后训练,显著提升了多个大语言模型在复杂指令遵循任务上的性能。
📝 摘要(中文)
大型语言模型在遵循具有复杂约束(如格式、长度等)的指令方面存在困难。以往的研究通常采用指令调优的方式,通过让先进的大语言模型生成复杂指令-响应对,然后进行后训练。然而,即使是先进的大语言模型也难以完美地遵循复杂指令,从而限制了生成数据的质量。本文发现现有数据集本身就包含隐式的复杂约束,并提出了一种新颖的数据生成技术,即约束反向翻译。具体而言,我们利用现有数据集中的高质量指令-响应对,仅使用先进的大语言模型将响应已经满足的复杂约束添加到指令中,从而自然地降低了成本和数据噪声。实验表明,在CRAB(通过约束反向翻译创建的高质量复杂指令-响应数据集)上进行后训练,可以提高多个骨干大语言模型在广泛的指令遵循基准上的复杂指令遵循能力。我们还发现,约束反向翻译也可以作为后训练中一个有用的辅助训练目标。我们的代码、数据和模型将被发布,以促进未来的研究。
🔬 方法详解
问题定义:现有的大语言模型在处理带有复杂约束的指令时表现不佳,例如对输出格式、长度等有严格要求的指令。传统的指令调优方法依赖于让大语言模型生成复杂的指令-响应对,但由于生成模型本身也难以完美地遵循这些复杂指令,导致生成的数据质量不高,进而影响了模型的训练效果。
核心思路:论文的核心思路是利用现有高质量的指令-响应对,通过“约束反向翻译”的方式,将响应已经满足的复杂约束添加到指令中。这样可以避免从头生成复杂指令-响应对,从而降低了数据生成过程中的噪声,并保证了生成数据的质量。
技术框架:整体流程包括以下几个步骤:1) 从现有高质量的指令-响应数据集中选取数据;2) 使用一个先进的大语言模型(如Llama3-70B-Instruct)分析响应,识别出响应满足的复杂约束;3) 将这些约束添加到原始指令中,形成新的复杂指令-响应对;4) 使用生成的数据集(CRAB)对目标大语言模型进行后训练。
关键创新:该方法的核心创新在于“约束反向翻译”的思想,即不是直接生成复杂的指令和响应,而是利用已有的高质量响应,反向推导出满足这些响应的复杂指令。这种方法避免了生成模型在生成复杂指令时可能引入的错误,从而提高了数据的质量。
关键设计:关键的设计在于如何有效地识别响应中隐含的复杂约束,并将其准确地添加到指令中。论文中使用了Llama3-70B-Instruct模型来完成这项任务。此外,CRAB数据集的构建和后训练策略也是关键的设计,通过在CRAB上进行后训练,可以有效地提升目标大语言模型的复杂指令遵循能力。论文还发现,约束反向翻译可以作为后训练的辅助目标,进一步提升模型性能。
🖼️ 关键图片
📊 实验亮点
论文构建了CRAB数据集,并在多个大语言模型上进行了实验。实验结果表明,在CRAB数据集上进行后训练可以显著提升模型在复杂指令遵循任务上的性能。例如,在多个指令遵循基准测试中,经过CRAB数据集训练的模型性能得到了显著提升,证明了约束反向翻译方法的有效性。
🎯 应用场景
该研究成果可广泛应用于需要大语言模型精确遵循复杂指令的场景,例如智能客服、代码生成、数据分析等。通过提升模型对复杂约束的理解和执行能力,可以提高自动化任务的效率和准确性,降低人工干预的需求。未来,该方法可以进一步扩展到更多类型的约束和任务中,提升大语言模型的通用性和实用性。
📄 摘要(原文)
Large language models (LLMs) struggle to follow instructions with complex constraints in format, length, etc. Following the conventional instruction-tuning practice, previous works conduct post-training on complex instruction-response pairs generated by feeding complex instructions to advanced LLMs. However, even advanced LLMs cannot follow complex instructions well, thus limiting the quality of generated data. In this work, we find that existing datasets inherently contain implicit complex constraints and propose a novel data generation technique, constraint back-translation. Specifically, we take the high-quality instruction-response pairs in existing datasets and only adopt advanced LLMs to add complex constraints already met by the responses to the instructions, which naturally reduces costs and data noise. In the experiments, we adopt Llama3-70B-Instruct to back-translate constraints and create a high-quality complex instruction-response dataset, named CRAB. We present that post-training on CRAB improves multiple backbone LLMs' complex instruction-following ability, evaluated on extensive instruction-following benchmarks. We further find that constraint back-translation also serves as a useful auxiliary training objective in post-training. Our code, data, and models will be released to facilitate future research.