mCoT: Multilingual Instruction Tuning for Reasoning Consistency in Language Models

📄 arXiv: 2406.02301v2 📥 PDF

作者: Huiyuan Lai, Malvina Nissim

分类: cs.CL

发布日期: 2024-06-04 (更新: 2024-07-10)

备注: Accepted to ACL 2024 main (Corrected Figure 2 (a))


💡 一句话要点

提出mCoT,通过多语言指令微调提升语言模型在多语言推理任务中的一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言推理 指令微调 思维链 语言模型 一致性

📋 核心要点

  1. 现有研究主要集中在英语,缺乏对多语言环境下LLM推理能力可靠性的探索。
  2. 提出多语言CoT指令微调方法,旨在提升LLM在不同语言中的推理能力和一致性。
  3. 构建了包含11种语言的大规模数学推理数据集mCoT-MATH,并验证了mCoT模型的有效性。

📝 摘要(中文)

本文研究了大型语言模型(LLMs)中思维链(CoT)推理能力在多语言环境下的可靠性。为此,我们构建了首个大规模多语言数学推理数据集mCoT-MATH,涵盖11种不同的语言。然后,我们引入了多语言CoT指令微调,以增强跨语言的推理能力,从而提高模型的一致性。实验结果表明,现有LLMs在不同语言之间表现出显著差异,尤其是在低资源语言上的性能较差。而我们提出的7B参数模型mCoT在各种语言中实现了令人印象深刻的一致性,并且性能优于或可与更大规模的闭源和开源模型相媲美。

🔬 方法详解

问题定义:现有的大型语言模型在思维链推理方面取得了显著进展,但主要集中在英语上。在多语言环境下,这些模型的推理能力是否可靠,以及在不同语言之间是否具有一致性,仍然是一个开放的问题。尤其是在低资源语言上,模型的性能往往较差。因此,论文旨在解决LLM在多语言推理任务中一致性不足的问题。

核心思路:论文的核心思路是通过多语言指令微调(Multilingual Instruction Tuning)来提升语言模型在不同语言中的推理能力,从而提高模型在多语言推理任务中的一致性。通过在包含多种语言的数学推理数据集上进行微调,使模型能够更好地理解和执行不同语言的推理指令。

技术框架:论文的技术框架主要包括两个部分:一是构建大规模多语言数学推理数据集mCoT-MATH;二是进行多语言CoT指令微调。首先,收集并整理涵盖11种语言的数学推理题目,构建mCoT-MATH数据集。然后,使用该数据集对预训练语言模型进行微调,使其能够更好地理解和执行不同语言的CoT推理指令。

关键创新:论文的关键创新在于提出了多语言CoT指令微调方法,并构建了大规模多语言数学推理数据集mCoT-MATH。与以往主要关注英语的研究不同,该方法能够有效提升LLM在多语言推理任务中的一致性,尤其是在低资源语言上。

关键设计:论文的关键设计包括:1) mCoT-MATH数据集的构建,确保数据集的多样性和规模;2) 多语言CoT指令微调的策略,选择合适的预训练模型和微调参数,以最大程度地提升模型的推理能力和一致性。具体的参数设置和损失函数等细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的mCoT模型在多语言推理任务中取得了显著的性能提升,尤其是在低资源语言上。mCoT模型在各种语言中实现了令人印象深刻的一致性,并且性能优于或可与更大规模的闭源和开源模型相媲美。例如,mCoT模型在mCoT-MATH数据集上的平均准确率达到了XX%,相比于基线模型提升了YY%。

🎯 应用场景

该研究成果可应用于多语言智能助手、跨语言信息检索、多语言教育等领域。通过提升LLM在多语言环境下的推理能力,可以更好地服务于全球用户,促进不同语言文化之间的交流与理解。未来,该方法有望推广到更多复杂的推理任务和领域。

📄 摘要(原文)

Large language models (LLMs) with Chain-of-thought (CoT) have recently emerged as a powerful technique for eliciting reasoning to improve various downstream tasks. As most research mainly focuses on English, with few explorations in a multilingual context, the question of how reliable this reasoning capability is in different languages is still open. To address it directly, we study multilingual reasoning consistency across multiple languages, using popular open-source LLMs. First, we compile the first large-scale multilingual math reasoning dataset, mCoT-MATH, covering eleven diverse languages. Then, we introduce multilingual CoT instruction tuning to boost reasoning capability across languages, thereby improving model consistency. While existing LLMs show substantial variation across the languages we consider, and especially low performance for lesser resourced languages, our 7B parameter model mCoT achieves impressive consistency across languages, and superior or comparable performance to close- and open-source models even of much larger sizes.