X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions

📄 arXiv: 2405.19744v1 📥 PDF

作者: Chong Li, Wen Yang, Jiajun Zhang, Jinliang Lu, Shaonan Wang, Chengqing Zong

分类: cs.CL, cs.AI

发布日期: 2024-05-30

备注: ACL 2024. Our codes, data and model weights are available at https://github.com/ZNLP/X-Instruction


💡 一句话要点

提出X-Instruction,通过自策跨语言指令对低资源语言大模型进行对齐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低资源语言 指令遵循 跨语言学习 大语言模型 指令微调

📋 核心要点

  1. 现有方法缺乏低资源语言的高质量指令数据,直接翻译英语指令易出错且缺乏文化背景。
  2. 论文提出一种新方法,利用低资源语言的文本生成对应的英文指令,构建跨语言指令数据集。
  3. 实验表明,使用X-Instruction训练的模型性能显著优于蒸馏模型,甚至可媲美ChatGPT。

📝 摘要(中文)

大型语言模型在高资源语言(如英语)中表现良好,但在低资源语言中表现不佳。这可能是由于缺乏高质量的指令遵循数据。直接将英语样本翻译成这些语言可能是一种解决方案,但并不可靠,会导致包含翻译错误和缺乏特定语言或文化知识的响应。为了解决这个问题,我们提出了一种新颖的方法来构建跨语言指令遵循样本,其中指令为英语,响应为低资源语言。具体来说,语言模型首先学习根据其他语言的自然网络文本作为响应来生成适当的英语指令。候选跨语言指令调整样本会进一步细化和多样化。我们已经使用这种方法在10种语言上构建了一个大规模的跨语言指令调整数据集,即X-Instruction。与简单的翻译方法相比,使用我们的方法构建的指令数据包含更多特定于语言的知识。实验结果表明,在X-Instruction上调整的模型的响应质量大大超过了从强大的教师模型中提炼的模型,达到甚至超过了ChatGPT的水平。此外,我们发现,在跨语言指令遵循样本上调整的模型可以遵循输出语言的指令,而无需进一步调整。

🔬 方法详解

问题定义:论文旨在解决低资源语言大模型指令遵循能力不足的问题。现有方法,如直接翻译英文指令,存在翻译质量差、缺乏语言文化背景知识等痛点,导致模型在低资源语言上的表现不佳。

核心思路:论文的核心思路是利用低资源语言的自然文本作为响应,反向生成对应的英文指令。这样可以确保指令与低资源语言的文化背景和表达方式相符,从而提高模型在该语言上的指令遵循能力。

技术框架:整体流程包括以下几个阶段:1) 利用低资源语言的自然文本作为响应,训练语言模型生成对应的英文指令;2) 对生成的候选跨语言指令调整样本进行提炼和多样化;3) 使用构建的跨语言指令数据集(X-Instruction)对模型进行指令微调。

关键创新:最重要的创新点在于利用低资源语言的文本反向生成英文指令,从而避免了直接翻译带来的问题,并融入了更多特定于语言的知识。这种方法能够更有效地构建高质量的跨语言指令数据集。

关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但是,生成英文指令的模型需要具备强大的生成能力和对低资源语言的理解能力。数据集的提炼和多样化过程可能涉及到一些启发式规则或基于模型的筛选方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在X-Instruction数据集上微调的模型,其响应质量显著优于从强大的教师模型蒸馏得到的模型,甚至达到了或超过了ChatGPT的水平。这表明该方法能够有效地提升低资源语言大模型的指令遵循能力,具有重要的实际意义。

🎯 应用场景

该研究成果可广泛应用于多语言智能助手、跨语言信息检索、机器翻译等领域。通过提升低资源语言大模型的指令遵循能力,可以更好地服务于全球用户,促进语言平等和文化交流。未来,该方法有望扩展到更多低资源语言,并与其他技术相结合,进一步提升模型的性能。

📄 摘要(原文)

Large language models respond well in high-resource languages like English but struggle in low-resource languages. It may arise from the lack of high-quality instruction following data in these languages. Directly translating English samples into these languages can be a solution but unreliable, leading to responses with translation errors and lacking language-specific or cultural knowledge. To address this issue, we propose a novel method to construct cross-lingual instruction following samples with instruction in English and response in low-resource languages. Specifically, the language model first learns to generate appropriate English instructions according to the natural web texts in other languages as responses. The candidate cross-lingual instruction tuning samples are further refined and diversified. We have employed this method to build a large-scale cross-lingual instruction tuning dataset on 10 languages, namely X-Instruction. The instruction data built using our method incorporate more language-specific knowledge compared with the naive translation method. Experimental results have shown that the response quality of the model tuned on X-Instruction greatly exceeds the model distilled from a powerful teacher model, reaching or even surpassing the ones of ChatGPT. In addition, we find that models tuned on cross-lingual instruction following samples can follow the instruction in the output language without further tuning.