Adapting Large Language Models to a Low-Resource Agglutinative Language: A Comparative Study of LoRA and QLoRA for Bashkir

作者: Mullosharaf K. Arabov, Svetlana S. Khaybullina

分类: cs.CL

发布日期: 2026-05-06

备注: Preprint

💡 一句话要点

针对低资源黏着语巴什基尔语，对比LoRA与QLoRA微调大语言模型的效果。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 低资源语言 参数高效微调 LoRA QLoRA 巴什基尔语 大语言模型 自然语言处理

📋 核心要点

低资源黏着语缺乏高质量数据，直接应用大型语言模型效果不佳，需要高效的微调方法。
论文对比LoRA和QLoRA两种参数高效微调方法，探索其在巴什基尔语上的适应性。
实验表明，QLoRA在7B规模模型上，能以较少参数量达到与全量微调接近的性能，且生成文本更连贯。

📝 摘要（中文）

本文对比了参数高效微调（PEFT）方法LoRA和QLoRA在将大型语言模型适配到巴什基尔语（一种突厥语族的低资源黏着语）上的效果。实验评估在一个包含7.1万篇文档（4690万tokens）的巴什基尔语文本语料库上进行，使用的模型架构包括DistilGPT2、GPT-2（base、medium）、Phi-2、Qwen2.5-7B、DeepSeek-7B和Mistral-7B。为了提高结果的可靠性，每种配置都使用三个不同的随机种子进行训练。GPT-2 medium在完全微调下获得了最低的测试集困惑度（3.34）。同时，应用于Mistral-7B（3.79）和Phi-2（3.81）的QLoRA以超过40倍更少的训练参数实现了相当的质量。然而，我们也观察到，对于某些架构，使用PEFT会导致显著的质量下降（例如，DeepSeek-7B，rank 8，困惑度=129.55），这表明结果严重依赖于基础模型及其tokenizer的选择。此外，基于巴什基尔语提示生成的文本的定性分析表明，具有最佳困惑度的模型不一定产生最连贯的输出：QLoRA调整的模型生成了单语巴什基尔语延续，而具有最低困惑度的完全微调模型经常切换到英语。结果表明，对于巴什基尔语，7B规模模型上的QLoRA在质量和计算成本之间提供了一个有效的折衷方案。为了确保可重复性，开放数据、代码和训练后的适配器将在接受后发布。

🔬 方法详解

问题定义：论文旨在解决低资源黏着语（如巴什基尔语）的大型语言模型微调问题。现有方法要么需要大量计算资源进行全量微调，要么在低资源场景下效果不佳，难以在质量和效率之间取得平衡。

核心思路：论文的核心思路是探索参数高效微调（PEFT）方法，特别是LoRA和QLoRA，在巴什基尔语上的适用性。通过冻结预训练模型的大部分参数，仅训练少量新增参数，从而降低计算成本，同时提升在低资源语言上的性能。

技术框架：论文的技术框架包括以下步骤：1）收集和预处理巴什基尔语文本语料库；2）选择多个预训练语言模型（如DistilGPT2、GPT-2、Phi-2、Qwen2.5-7B、DeepSeek-7B、Mistral-7B）；3）应用LoRA和QLoRA对这些模型进行微调，并使用不同的随机种子进行多次训练以保证结果的可靠性；4）在测试集上评估微调后的模型，使用困惑度作为主要指标；5）对生成的文本进行定性分析，评估其连贯性和语言质量。

关键创新：论文的关键创新在于对LoRA和QLoRA在低资源黏着语上的效果进行了系统的比较研究。通过实验发现，QLoRA在7B规模的模型上，能够在显著减少训练参数的同时，达到与全量微调相近的性能，并且生成更符合巴什基尔语习惯的文本。此外，论文还揭示了PEFT方法的效果对基础模型和tokenizer的选择具有高度依赖性。

关键设计：论文的关键设计包括：1）使用包含7.1万篇文档的巴什基尔语语料库进行训练；2）对比不同规模和架构的预训练模型；3）使用困惑度作为量化指标，并结合人工评估进行定性分析；4）针对LoRA和QLoRA，尝试不同的rank值，并选择最佳配置；5）采用多个随机种子进行训练，以评估结果的稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GPT-2 medium全量微调在测试集上取得了最低的困惑度（3.34）。然而，QLoRA应用于Mistral-7B（困惑度3.79）和Phi-2（困惑度3.81）时，以超过40倍更少的训练参数实现了可比的性能。定性分析显示，QLoRA微调的模型生成了更连贯的巴什基尔语文本，而全量微调的模型更容易切换到英语。

🎯 应用场景

该研究成果可应用于低资源语言的自然语言处理任务，例如机器翻译、文本生成、信息检索等。通过参数高效微调，可以降低模型部署和维护的成本，促进低资源语言的数字化发展，并为相关语言的文化传承提供技术支持。

📄 摘要（原文）

This paper presents a comparative study of parameter-efficient fine-tuning (PEFT) methods, including LoRA and QLoRA, applied to the task of adapting large language models to the Bashkir language, a low-resource agglutinative language of the Turkic family. Experimental evaluation is conducted on a Bashkir text corpus of 71k documents (46.9M tokens) using models of various architectures: DistilGPT2, GPT-2 (base, medium), Phi-2, Qwen2.5-7B, DeepSeek-7B, and Mistral-7B. To improve the reliability of results, each configuration was trained with three different random seeds. The lowest perplexity on the test set was obtained for GPT-2 medium with full fine-tuning (3.34). Meanwhile, QLoRA applied to Mistral-7B (3.79) and Phi-2 (3.81) achieved comparable quality with over 40 times fewer trainable parameters. However, we also observed cases of significant quality degradation when using PEFT for certain architectures (e.g., DeepSeek-7B with rank 8, perplexity = 129.55), indicating that the outcome depends critically on the choice of the base model and its tokenizer. Additionally, a qualitative analysis of generated texts based on Bashkir prompts revealed that models with the best perplexity do not necessarily produce the most coherent outputs: QLoRA-tuned models generated monolingual Bashkir continuations, whereas the fully fine-tuned model with the lowest perplexity frequently switched to English. The results suggest that QLoRA on 7B-scale models offers an effective compromise between quality and computational cost for Bashkir. To ensure reproducibility, open data, code, and trained adapters will be released upon acceptance.

Adapting Large Language Models to a Low-Resource Agglutinative Language: A Comparative Study of LoRA and QLoRA for Bashkir

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理