Better Alignment with Instruction Back-and-Forth Translation

📄 arXiv: 2408.04614v2 📥 PDF

作者: Thao Nguyen, Jeffrey Li, Sewoong Oh, Ludwig Schmidt, Jason Weston, Luke Zettlemoyer, Xian Li

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-08-08 (更新: 2024-08-13)


💡 一句话要点

提出指令双向翻译方法,为LLM对齐构建高质量、基于世界知识的合成数据。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令微调 大型语言模型 数据增强 回译 知识对齐

📋 核心要点

  1. 现有指令微调数据集质量参差不齐,难以保证LLM对齐效果,且缺乏对世界知识的有效利用。
  2. 提出指令双向翻译方法,利用回译生成高质量指令,并结合原始文档重写回复,提升数据质量。
  3. 实验表明,使用该方法生成的数据微调LLM,在AlpacaEval上取得了更高的胜率,优于其他常见指令数据集。

📝 摘要(中文)

本文提出了一种新的方法,即指令双向翻译,用于构建高质量的、基于世界知识的合成数据,以对齐大型语言模型(LLMs)。该方法利用网络语料库中的文档,使用Li et al.(2023a)提出的回译方法生成和筛选合成指令,并基于原始文档进一步重写回复以提高其质量。使用由此产生的(回译指令,重写回复)对进行微调,在AlpacaEval上的胜率高于使用其他常见的指令数据集,如Humpback、ShareGPT、Open Orca、Alpaca-GPT4和Self-instruct。我们还证明了使用LLM重写回复优于直接蒸馏,并且两个生成的文本分布在嵌入空间中表现出显著差异。进一步的分析表明,我们的回译指令比其他来源的合成指令质量更高,而我们的回复比从蒸馏获得的回复更加多样和复杂。总的来说,我们发现指令双向翻译结合了两者之长——利用了网络上发现的信息多样性和数量,同时确保了有效对齐所需的回复质量。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)对齐方法依赖于指令微调,而高质量的指令数据是关键。现有的指令数据集要么质量不高,要么缺乏对世界知识的有效利用。直接蒸馏方法生成的回复可能缺乏多样性和复杂性,而人工标注成本高昂。因此,如何高效地生成高质量、多样化且基于世界知识的指令数据,是本文要解决的核心问题。

核心思路:本文的核心思路是利用指令双向翻译,结合回译和重写技术,从网络语料库中提取信息,生成高质量的指令和回复对。回译保证了指令的质量,而基于原始文档的回复重写则提升了回复的质量和多样性,同时确保了回复与世界知识的一致性。

技术框架:该方法主要包含以下几个阶段:1) 从网络语料库中获取文档;2) 使用回译方法生成指令;3) 基于原始文档,使用LLM重写回复;4) 使用生成的(回译指令,重写回复)对进行LLM微调。整体流程旨在利用网络信息的广度,同时保证生成数据的质量。

关键创新:该方法最重要的创新点在于结合了指令回译和回复重写,形成了一个闭环的指令数据生成流程。指令回译保证了指令的质量,而回复重写则提升了回复的质量和多样性。这种双向翻译的思想,使得生成的数据更适合LLM的对齐。

关键设计:在指令回译阶段,使用了Li et al.(2023a)提出的方法,具体细节未知。在回复重写阶段,使用了LLM进行重写,具体使用的LLM型号和prompt设计未知。微调阶段使用的损失函数和超参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用指令双向翻译方法生成的数据微调LLM,在AlpacaEval上的胜率显著高于使用其他常见指令数据集,如Humpback、ShareGPT、Open Orca、Alpaca-GPT4和Self-instruct。此外,实验还证明了使用LLM重写回复优于直接蒸馏,并且两种生成文本的分布在嵌入空间中存在显著差异。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的对齐和微调,尤其是在需要利用大量世界知识的场景下。该方法能够降低人工标注成本,提高数据生成效率,从而加速LLM的开发和应用,例如智能客服、知识问答、内容生成等。

📄 摘要(原文)

We propose a new method, instruction back-and-forth translation, to construct high-quality synthetic data grounded in world knowledge for aligning large language models (LLMs). Given documents from a web corpus, we generate and curate synthetic instructions using the backtranslation approach proposed by Li et al.(2023a), and rewrite the responses to improve their quality further based on the initial documents. Fine-tuning with the resulting (backtranslated instruction, rewritten response) pairs yields higher win rates on AlpacaEval than using other common instruction datasets such as Humpback, ShareGPT, Open Orca, Alpaca-GPT4 and Self-instruct. We also demonstrate that rewriting the responses with an LLM outperforms direct distillation, and the two generated text distributions exhibit significant distinction in embedding space. Further analysis shows that our backtranslated instructions are of higher quality than other sources of synthetic instructions, while our responses are more diverse and complex than those obtained from distillation. Overall we find that instruction back-and-forth translation combines the best of both worlds -- making use of the information diversity and quantity found on the web, while ensuring the quality of the responses which is necessary for effective alignment.