Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging -- An Open Recipe

📄 arXiv: 2502.09056v3 📥 PDF

作者: Kunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai

分类: cs.CL, cs.AI

发布日期: 2025-02-13 (更新: 2025-03-27)

备注: 9 pages


💡 一句话要点

通过模型合并,一天内将特定语言LLM适配到推理模型:一个开放方案

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型合并 低资源语言 大型语言模型 推理能力 知识迁移

📋 核心要点

  1. 现有方法难以将先进推理能力有效迁移到低资源语言LLM,导致其在目标语言任务中表现不佳。
  2. 论文提出一种基于数据选择和模型合并的策略,将高资源推理模型的知识迁移到特定语言LLM。
  3. 实验表明,该方法在低成本下显著提升了特定语言LLM的推理能力,同时保持了其语言性能。

📝 摘要(中文)

本文研究了数据选择和模型合并方法,旨在将DeepSeek R1等先进的推理能力融入到特定语言的大型语言模型(LLM)中,特别关注泰语LLM。我们的目标是增强特定语言LLM的推理能力,同时保持其目标语言能力。DeepSeek R1在推理方面表现出色,但主要受益于英语和中文等高资源语言。由于以英语为中心的训练数据和模型优化占据主导地位,低资源语言仍然服务不足,这限制了这些语言的性能。这种限制导致不可靠的代码切换,并降低了在低资源语言任务中的有效性。同时,本地和区域LLM计划试图通过开发特定语言的LLM来弥合这一差距,这些LLM专注于提高本地语言的保真度。我们证明,仅使用公开可用的数据集和120美元的计算预算,就有可能将特定语言LLM的推理能力提高到与DeepSeek R1相当的水平,而不会影响其在目标语言任务上的性能。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在英语和中文等高资源语言上表现出色,但在泰语等低资源语言上的推理能力较弱。现有的方法,例如直接训练特定语言的LLM,难以达到与高资源语言模型相同的推理水平。此外,直接在高资源语言模型上进行微调可能会损害其在目标低资源语言上的性能。

核心思路:论文的核心思路是通过模型合并,将具有强大推理能力的通用LLM(如DeepSeek R1)的知识迁移到特定语言的LLM,同时保留特定语言LLM的语言特性。这种方法避免了从头开始训练的成本,并利用了现有模型的优势。

技术框架:该方法主要包含两个阶段:数据选择和模型合并。首先,从公开数据集中选择与推理相关的子集,用于指导模型合并过程。然后,使用模型合并技术,将通用LLM和特定语言LLM的权重进行融合,从而创建一个兼具推理能力和语言能力的混合模型。

关键创新:该方法的关键创新在于其高效性和低成本。通过精心选择数据和使用模型合并技术,可以在一天内,仅花费120美元的计算资源,就将特定语言LLM的推理能力提升到与DeepSeek R1相当的水平。这使得低资源语言的LLM能够以较低的成本获得先进的推理能力。

关键设计:数据选择策略旨在选择与推理相关的样本,例如数学问题、逻辑推理题等。模型合并采用加权平均的方式,根据两个模型的性能和任务相关性,调整权重。具体的权重设置和数据选择策略是影响最终性能的关键因素。论文中可能使用了任务特定的损失函数来指导模型合并过程,以确保合并后的模型在目标任务上表现良好(具体细节未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究表明,仅使用公开数据集和120美元的计算预算,就可以将特定语言LLM的推理能力提升到与DeepSeek R1相当的水平,同时保持其在目标语言任务上的性能。这一结果突出了模型合并在知识迁移方面的潜力,并为低资源语言LLM的开发提供了一种经济高效的解决方案。具体的性能提升数据和对比基线未知。

🎯 应用场景

该研究成果可广泛应用于各种需要特定语言理解和推理能力的场景,例如智能客服、机器翻译、教育辅助、内容创作等。通过提升低资源语言LLM的推理能力,可以更好地服务于全球用户,促进语言平等,并为本地化应用提供更强大的技术支持。该方法也为其他低资源语言的LLM开发提供了借鉴。

📄 摘要(原文)

This paper investigates data selection and model merging methodologies aimed at incorporating advanced reasoning capabilities such as those of DeepSeek R1 into language-specific large language models (LLMs), with a particular focus on the Thai LLM. Our goal is to enhance the reasoning capabilities of language-specific LLMs while maintaining their target language abilities. DeepSeek R1 excels in reasoning but primarily benefits high-resource languages such as English and Chinese. However, low-resource languages remain underserved due to the dominance of English-centric training data and model optimizations, which limit performance in these languages. This limitation results in unreliable code-switching and diminished effectiveness on tasks in low-resource languages. Meanwhile, local and regional LLM initiatives have attempted to bridge this gap by developing language-specific LLMs that focus on improving local linguistic fidelity. We demonstrate that, with only publicly available datasets and a computational budget of $120, it is possible to enhance the reasoning capabilities of language-specific LLMs to match the level of DeepSeek R1, without compromising their performance on target language tasks.