Adapting Large Language Models to a Low-Resource Agglutinative Language: A Comparative Study of LoRA and QLoRA for Bashkir
作者: Mullosharaf K. Arabov, Svetlana S. Khaybullina
分类: cs.CL
发布日期: 2026-05-06
备注: Preprint
💡 一句话要点
针对低资源黏着语巴什基尔语,对比LoRA与QLoRA微调大语言模型的效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低资源语言 参数高效微调 LoRA QLoRA 巴什基尔语 大语言模型 自然语言处理
📋 核心要点
- 低资源黏着语缺乏高质量数据,直接应用大型语言模型效果不佳,需要高效的微调方法。
- 论文对比LoRA和QLoRA两种参数高效微调方法,探索其在巴什基尔语上的适应性。
- 实验表明,QLoRA在7B规模模型上,能以较少参数量达到与全量微调接近的性能,且生成文本更连贯。
📝 摘要(中文)
本文对比了参数高效微调(PEFT)方法LoRA和QLoRA在将大型语言模型适配到巴什基尔语(一种突厥语族的低资源黏着语)上的效果。实验评估在一个包含7.1万篇文档(4690万tokens)的巴什基尔语文本语料库上进行,使用的模型架构包括DistilGPT2、GPT-2(base、medium)、Phi-2、Qwen2.5-7B、DeepSeek-7B和Mistral-7B。为了提高结果的可靠性,每种配置都使用三个不同的随机种子进行训练。GPT-2 medium在完全微调下获得了最低的测试集困惑度(3.34)。同时,应用于Mistral-7B(3.79)和Phi-2(3.81)的QLoRA以超过40倍更少的训练参数实现了相当的质量。然而,我们也观察到,对于某些架构,使用PEFT会导致显著的质量下降(例如,DeepSeek-7B,rank 8,困惑度=129.55),这表明结果严重依赖于基础模型及其tokenizer的选择。此外,基于巴什基尔语提示生成的文本的定性分析表明,具有最佳困惑度的模型不一定产生最连贯的输出:QLoRA调整的模型生成了单语巴什基尔语延续,而具有最低困惑度的完全微调模型经常切换到英语。结果表明,对于巴什基尔语,7B规模模型上的QLoRA在质量和计算成本之间提供了一个有效的折衷方案。为了确保可重复性,开放数据、代码和训练后的适配器将在接受后发布。
🔬 方法详解
问题定义:论文旨在解决低资源黏着语(如巴什基尔语)的大型语言模型微调问题。现有方法要么需要大量计算资源进行全量微调,要么在低资源场景下效果不佳,难以在质量和效率之间取得平衡。
核心思路:论文的核心思路是探索参数高效微调(PEFT)方法,特别是LoRA和QLoRA,在巴什基尔语上的适用性。通过冻结预训练模型的大部分参数,仅训练少量新增参数,从而降低计算成本,同时提升在低资源语言上的性能。
技术框架:论文的技术框架包括以下步骤:1)收集和预处理巴什基尔语文本语料库;2)选择多个预训练语言模型(如DistilGPT2、GPT-2、Phi-2、Qwen2.5-7B、DeepSeek-7B、Mistral-7B);3)应用LoRA和QLoRA对这些模型进行微调,并使用不同的随机种子进行多次训练以保证结果的可靠性;4)在测试集上评估微调后的模型,使用困惑度作为主要指标;5)对生成的文本进行定性分析,评估其连贯性和语言质量。
关键创新:论文的关键创新在于对LoRA和QLoRA在低资源黏着语上的效果进行了系统的比较研究。通过实验发现,QLoRA在7B规模的模型上,能够在显著减少训练参数的同时,达到与全量微调相近的性能,并且生成更符合巴什基尔语习惯的文本。此外,论文还揭示了PEFT方法的效果对基础模型和tokenizer的选择具有高度依赖性。
关键设计:论文的关键设计包括:1)使用包含7.1万篇文档的巴什基尔语语料库进行训练;2)对比不同规模和架构的预训练模型;3)使用困惑度作为量化指标,并结合人工评估进行定性分析;4)针对LoRA和QLoRA,尝试不同的rank值,并选择最佳配置;5)采用多个随机种子进行训练,以评估结果的稳定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-2 medium全量微调在测试集上取得了最低的困惑度(3.34)。然而,QLoRA应用于Mistral-7B(困惑度3.79)和Phi-2(困惑度3.81)时,以超过40倍更少的训练参数实现了可比的性能。定性分析显示,QLoRA微调的模型生成了更连贯的巴什基尔语文本,而全量微调的模型更容易切换到英语。
🎯 应用场景
该研究成果可应用于低资源语言的自然语言处理任务,例如机器翻译、文本生成、信息检索等。通过参数高效微调,可以降低模型部署和维护的成本,促进低资源语言的数字化发展,并为相关语言的文化传承提供技术支持。
📄 摘要(原文)
This paper presents a comparative study of parameter-efficient fine-tuning (PEFT) methods, including LoRA and QLoRA, applied to the task of adapting large language models to the Bashkir language, a low-resource agglutinative language of the Turkic family. Experimental evaluation is conducted on a Bashkir text corpus of 71k documents (46.9M tokens) using models of various architectures: DistilGPT2, GPT-2 (base, medium), Phi-2, Qwen2.5-7B, DeepSeek-7B, and Mistral-7B. To improve the reliability of results, each configuration was trained with three different random seeds. The lowest perplexity on the test set was obtained for GPT-2 medium with full fine-tuning (3.34). Meanwhile, QLoRA applied to Mistral-7B (3.79) and Phi-2 (3.81) achieved comparable quality with over 40 times fewer trainable parameters. However, we also observed cases of significant quality degradation when using PEFT for certain architectures (e.g., DeepSeek-7B with rank 8, perplexity = 129.55), indicating that the outcome depends critically on the choice of the base model and its tokenizer. Additionally, a qualitative analysis of generated texts based on Bashkir prompts revealed that models with the best perplexity do not necessarily produce the most coherent outputs: QLoRA-tuned models generated monolingual Bashkir continuations, whereas the fully fine-tuned model with the lowest perplexity frequently switched to English. The results suggest that QLoRA on 7B-scale models offers an effective compromise between quality and computational cost for Bashkir. To ensure reproducibility, open data, code, and trained adapters will be released upon acceptance.