Improving Multilingual Capabilities with Cultural and Local Knowledge in Large Language Models While Enhancing Native Performance

📄 arXiv: 2504.09753v3 📥 PDF

作者: Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Siddhant Gupta, Drishti Sharma, Jebish Purbey, Kanwal Mehreen, Muhammad Arham, Suman Debnath, Hamza Farooq

分类: cs.CL, cs.AI

发布日期: 2025-04-13 (更新: 2025-07-31)

备注: 24 pages, 18 figures


💡 一句话要点

Mantra-14B:通过文化和本地知识增强LLM多语言能力并提升原生性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 低资源语言 指令微调 文化知识 本地知识 印地语 双语模型

📋 核心要点

  1. 现有大型语言模型主要集中于高资源语言,忽略了低资源语言的需求,导致多语言能力不足。
  2. 论文提出通过文化和本地知识增强的指令微调,在不显著增加计算开销的情况下提升多语言性能。
  3. 实验表明,Mantra-14B在印地语和英语基准测试中均有提升,优于更大规模的模型。

📝 摘要(中文)

大型语言模型(LLMs)展现了卓越的能力,但其发展主要集中在英语和其他高资源语言上,导致许多语言的服务不足。我们提出了最新的印地语-英语双语LLM extbf{Mantra-14B},在两种语言的基准测试中平均提高了约3%,优于两倍于其大小的模型。通过使用包含485K个样本的英语和印地语指令数据的精选数据集,我们对Qwen-2.5-14B-Instruct和Phi-4等模型进行了指令调优,以提高英语和印地语的性能。我们的实验涵盖了七种不同参数大小的LLM,以及超过140次使用不同英语-印地语训练数据比例的训练尝试,证明了在不影响原生性能的情况下,显著提高多语言性能是可能的。此外,我们的方法避免了诸如词汇扩展或架构修改等资源密集型技术,从而保持了模型的小尺寸。我们的结果表明,使用具有文化和本地知识的数据进行适度的微调可以弥合性能差距,而不会产生显著的计算开销。我们以MIT和Apache许可证发布了我们的训练代码、数据集和模型,以帮助进一步研究代表性不足和低资源语言。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在低资源语言(如印地语)上的性能不足问题。现有方法通常侧重于高资源语言,导致模型在处理包含文化和本地知识的低资源语言时表现不佳。此外,直接扩展词汇表或修改模型架构等方法会显著增加计算成本和模型大小,不适用于资源受限的场景。

核心思路:论文的核心思路是通过指令微调,利用包含文化和本地知识的英语-印地语双语数据集,使模型更好地理解和生成印地语文本,同时保持或提升其英语性能。这种方法避免了复杂的模型修改,降低了计算成本。

技术框架:整体框架包括以下步骤:1)选择预训练语言模型(如Qwen-2.5-14B-Instruct和Phi-4);2)构建包含英语和印地语指令数据的精选数据集;3)使用该数据集对预训练模型进行指令微调;4)在英语和印地语基准测试上评估微调后的模型性能。实验中,作者尝试了不同的英语-印地语训练数据比例,以找到最佳的训练策略。

关键创新:论文的关键创新在于利用文化和本地知识增强的指令数据进行微调,从而在不显著增加模型大小和计算成本的情况下,有效提升了低资源语言的性能。此外,该方法避免了对模型架构进行修改,使其更易于部署和应用。

关键设计:论文的关键设计包括:1)构建高质量的英语-印地语双语指令数据集,该数据集包含485K个样本,涵盖各种任务和领域;2)选择合适的预训练模型作为基础模型;3)调整训练数据比例,以平衡英语和印地语的性能;4)使用标准的反向传播算法和优化器进行微调。具体的超参数设置(如学习率、batch size等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mantra-14B在印地语和英语基准测试中平均提高了约3%,优于两倍于其大小的模型。实验涵盖了七种不同参数大小的LLM,以及超过140次使用不同英语-印地语训练数据比例的训练尝试,证明了在不影响原生性能的情况下,显著提高多语言性能是可能的。具体提升的基准测试和数值未知。

🎯 应用场景

该研究成果可应用于开发更有效的多语言聊天机器人、机器翻译系统和内容生成工具,尤其是在低资源语言领域。通过提升LLM对文化和本地知识的理解能力,可以更好地服务于全球用户,促进跨文化交流和信息共享。未来,该方法可以推广到其他低资源语言,构建更加包容和多样化的人工智能生态系统。

📄 摘要(原文)

Large Language Models (LLMs) have shown remarkable capabilities, but their development has primarily focused on English and other high-resource languages, leaving many languages underserved. We present our latest Hindi-English bi-lingual LLM \textbf{Mantra-14B} with ~3\% average improvement in benchmark scores over both languages, outperforming models twice its size. Using a curated dataset composed of English and Hindi instruction data of 485K samples, we instruction tuned models such as Qwen-2.5-14B-Instruct and Phi-4 to improve performance over both English and Hindi. Our experiments encompassing seven different LLMs of varying parameter sizes and over 140 training attempts with varying English-Hindi training data ratios demonstrated that it is possible to significantly improve multilingual performance without compromising native performance. Further, our approach avoids resource-intensive techniques like vocabulary expansion or architectural modifications, thus keeping the model size small. Our results indicate that modest fine-tuning with culturally and locally informed data can bridge performance gaps without incurring significant computational overhead. We release our training code, datasets, and models under mit and apache licenses to aid further research towards under-represented and low-resource languages.