RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs

📄 arXiv: 2407.02552v1 📥 PDF

作者: John Dang, Arash Ahmadian, Kelly Marchisio, Julia Kreutzer, Ahmet Üstün, Sara Hooker

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-07-02


💡 一句话要点

提出一种可扩展的多语言偏好优化方法,显著提升LLM在多种语言上的对齐效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 偏好优化 强化学习 跨语言迁移 数据增强

📋 核心要点

  1. 现有偏好优化方法主要集中在少数几种语言上,缺乏对多语言环境的有效支持。
  2. 提出一种可扩展的方法,生成高质量多语言反馈数据,平衡不同语言的数据覆盖。
  3. 实验表明,跨语言迁移和增加数据集规模能显著提升多语言LLM的对齐效果。

📝 摘要(中文)

偏好优化技术已成为训练先进大型语言模型(LLMs)的标准最后阶段。然而,尽管应用广泛,但迄今为止绝大多数工作都集中在英语和中文等主要语言上。这仅涵盖了世界上极小一部分语言,同时也使得当前最先进的研究成果在多语言环境中的适用性变得不明确。本文进行了一项详尽的研究,以在对齐多语言LLMs方面达到新的最先进水平。我们提出了一种新颖的、可扩展的方法,用于生成高质量的多语言反馈数据,以平衡数据覆盖范围。我们证实了跨语言迁移和增加数据集大小在偏好训练中的益处。我们的偏好训练模型在与Aya 23 8B(当前参数类别中最先进的多语言LLM)的对抗中取得了54.4%的胜率,并且在与Gemma-1.1-7B-it、Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.3等广泛使用的模型的对抗中取得了69.5%或更高的胜率。通过我们的研究,我们将对齐技术的前沿扩展到覆盖世界一半人口的23种语言。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)的偏好优化主要集中在英语和中文等少数几种语言上,导致模型在其他语言上的表现不佳。现有的方法难以有效地扩展到多语言环境,无法充分利用不同语言之间的知识迁移,并且缺乏高质量的多语言反馈数据。

核心思路:论文的核心思路是通过生成高质量的多语言反馈数据,并利用跨语言迁移学习,来提升LLM在多种语言上的对齐效果。通过平衡不同语言的数据覆盖,使得模型能够更好地理解和生成各种语言的文本。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集与清洗:收集多种语言的文本数据,并进行清洗和预处理。2) 多语言反馈数据生成:使用一种新颖的可扩展方法生成高质量的多语言反馈数据。3) 偏好训练:使用生成的反馈数据对LLM进行偏好训练,优化模型在多种语言上的表现。4) 评估:使用多种评估指标评估模型在不同语言上的性能。

关键创新:该论文的关键创新在于提出了一种可扩展的多语言反馈数据生成方法,该方法能够有效地平衡不同语言的数据覆盖,并生成高质量的反馈数据。此外,该研究还证实了跨语言迁移学习在多语言偏好优化中的益处。

关键设计:论文中关于多语言反馈数据生成的具体方法未知。但可以推测,可能涉及到翻译、数据增强等技术,以确保不同语言的数据质量和多样性。此外,在偏好训练过程中,可能使用了特定的损失函数来鼓励模型学习不同语言之间的共性和差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该论文提出的方法能够显著提升多语言LLM的对齐效果。与当前最先进的多语言LLM Aya 23 8B 相比,该模型的胜率为 54.4%。与 Gemma-1.1-7B-it、Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.3 等广泛使用的模型相比,胜率达到 69.5% 或更高。该研究将对齐技术扩展到 23 种语言,覆盖了世界一半的人口。

🎯 应用场景

该研究成果可应用于开发更通用、更智能的多语言LLM,使其能够在各种语言环境中提供高质量的文本生成、翻译、对话等服务。这对于促进跨文化交流、信息共享和全球化具有重要意义。此外,该方法还可以应用于其他多语言自然语言处理任务,如机器翻译、跨语言信息检索等。

📄 摘要(原文)

Preference optimization techniques have become a standard final stage for training state-of-art large language models (LLMs). However, despite widespread adoption, the vast majority of work to-date has focused on first-class citizen languages like English and Chinese. This captures a small fraction of the languages in the world, but also makes it unclear which aspects of current state-of-the-art research transfer to a multilingual setting. In this work, we perform an exhaustive study to achieve a new state-of-the-art in aligning multilingual LLMs. We introduce a novel, scalable method for generating high-quality multilingual feedback data to balance data coverage. We establish the benefits of cross-lingual transfer and increased dataset size in preference training. Our preference-trained model achieves a 54.4% win-rate against Aya 23 8B, the current state-of-the-art multilingual LLM in its parameter class, and a 69.5% win-rate or higher against widely used models like Gemma-1.1-7B-it, Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.3. As a result of our study, we expand the frontier of alignment techniques to 23 languages covering half of the world's population.