Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks

📄 arXiv: 2503.13988v1 📥 PDF

作者: Mykyta Syromiatnikov, Victoria Ruvinskaya, Nataliia Komleva

分类: cs.CL, cs.AI

发布日期: 2025-03-18

备注: 12 pages, 6 tables, 2 figures

🔗 代码/项目: GITHUB


💡 一句话要点

通过思维链微调LLaMA和Gemma模型,提升乌克兰语考试任务性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链 参数高效微调 低资源语言 乌克兰语 语言模型 教育 LLaMA Gemma

📋 核心要点

  1. 现有大型语言模型在低资源语言上的推理能力不足,且训练成本高昂,小型模型性能受限。
  2. 提出使用思维链(Chain-of-Thought)方法,对小型开源模型LLaMA和Gemma进行参数高效微调,提升其在乌克兰语考试任务上的性能。
  3. 实验结果表明,该方法在复杂匹配任务中性能提升高达17.4%,总体提升1.6%,并且优于GPT-4o mini等模型。

📝 摘要(中文)

大型语言模型在推理密集型任务(如标准化教育测试)中表现出卓越的能力。然而,在低资源环境中,它们通常需要大量的训练,且基础设施难以获取。小型模型虽然更高效,但通常缺乏对代表性不足语言的支持,导致关键领域的性能差距。本研究探索了对小型开源语言模型进行参数高效微调的潜力,以处理代表性不足的乌克兰语中的推理密集型任务,并基于ZNO-Eval基准的发现。在思维链解决方案上对LLaMA 3.1(80亿参数)、LLaMA 3.2(30亿参数)和Gemma 2(90亿参数)模型进行参数高效微调,与仅在答案字母上进行微调相比,在复杂的匹配任务中测试分数提高了高达17.4%,总体提高了1.6%,从而增强了解释性和鲁棒性。此外,所提出的联合任务主题和逐步解决方案生成微调方法在匹配任务中优于标准思维链微调,并且由于引导模型回忆和应用领域相关信息,因此比最佳LLaMA 3.2模型提高了5.4%。将获得的结果与Qwen、DeepSeek R1、OpenAI o1和o3、Gemini和Claude等领先的开源和专有模型的零样本评估进行对比,突出了在单个A100 GPU上使用2,032个逐步解决方案和2000万至5000万个可训练参数对LLaMA和Gemma模型进行微调,使其性能优于GPT-4o mini、Mistral Large和更大的开源模型。本研究还评估了量化适配器与基础模型合并如何影响生成质量。源代码和调整后的模型可在https://github.com/NLPForUA/ZNO 获取。

🔬 方法详解

问题定义:论文旨在解决低资源语言(乌克兰语)环境下,小型语言模型在推理密集型任务(如标准化考试)中表现不佳的问题。现有方法要么依赖于大型模型,训练成本高昂且难以获取,要么使用小型模型但效果不理想,缺乏对乌克兰语等低资源语言的有效支持。

核心思路:论文的核心思路是利用思维链(Chain-of-Thought, CoT)方法,通过参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术,使小型开源语言模型(LLaMA和Gemma)能够更好地进行推理,从而提升其在乌克兰语考试任务上的性能。CoT方法通过生成逐步的推理过程,帮助模型更好地理解问题并给出答案。

技术框架:整体框架包括以下几个主要步骤:1) 数据准备:构建包含乌克兰语考试题目和对应CoT解决方案的数据集。2) 模型选择:选择LLaMA和Gemma等小型开源语言模型作为基础模型。3) 参数高效微调:使用LoRA等PEFT技术,仅微调少量参数,降低计算成本。4) 思维链训练:使用CoT数据对模型进行训练,使其学会生成逐步的推理过程。5) 评估:在乌克兰语考试任务上评估模型的性能。

关键创新:论文的关键创新在于将CoT方法与PEFT技术相结合,应用于低资源语言环境下的小型语言模型。此外,论文还提出了一种联合任务主题和逐步解决方案生成的方法,引导模型回忆和应用领域相关信息,进一步提升了性能。

关键设计:论文使用了LoRA(Low-Rank Adaptation)进行参数高效微调,仅微调2000万至5000万个参数。训练数据包含2032个逐步解决方案。损失函数采用标准的交叉熵损失函数。实验中对比了不同大小的模型(LLaMA 3.1, LLaMA 3.2, Gemma 2)和不同的微调策略(仅答案字母微调、标准CoT微调、联合任务主题和逐步解决方案生成微调)。

📊 实验亮点

实验结果表明,使用CoT方法对LLaMA和Gemma模型进行微调,在复杂匹配任务中性能提升高达17.4%,总体提升1.6%。联合任务主题和逐步解决方案生成微调方法比最佳LLaMA 3.2模型提高了5.4%。微调后的LLaMA和Gemma模型性能优于GPT-4o mini、Mistral Large等大型模型。

🎯 应用场景

该研究成果可应用于低资源语言的教育领域,例如自动阅卷、智能辅导等。通过提升小型语言模型在特定领域的推理能力,可以降低计算成本,并为资源有限的地区提供更便捷的AI服务。未来,该方法还可以推广到其他低资源语言和领域,促进AI技术的普及。

📄 摘要(原文)

Leading large language models have demonstrated impressive capabilities in reasoning-intensive tasks, such as standardized educational testing. However, they often require extensive training in low-resource settings with inaccessible infrastructure. Small or compact models, though more efficient, frequently lack sufficient support for underrepresented languages, leaving a performance gap in critical domains. This work explores the potential of parameter-efficient fine-tuning of compact open-weight language models to handle reasoning-intensive tasks in the underrepresented Ukrainian language, building on the findings of the ZNO-Eval benchmark. Parameter-efficient fine-tuning of LLaMA 3.1 (8 billion parameters), LLaMA 3.2 (3 billion parameters), and Gemma 2 (9 billion parameters) models on chain-of-thought solutions resulted in a modest test score improvement of up to 17.4% on complex matching tasks and 1.6% overall compared to tuning on answer letters alone, offering enhanced interpretability and robustness. In addition, the proposed tuning method with joint task topic and step-by-step solution generation outperforms standard chain-of-thought tuning in matching tasks and provides a 5.4% gain over the best LLaMA 3.2 model due to guiding the model to recall and apply domain-relevant information. Contrasting obtained results with zero-shot evaluations of leading open-weight and proprietary models such as Qwen, DeepSeek R1, OpenAI o1 and o3, Gemini, and Claude, highlight that fine-tuning LLaMA and Gemma models with 2,032 step-by-step solutions and 20 to 50 million trainable parameters on a single A100 GPU lets them outperform GPT-4o mini, Mistral Large, and larger open-weight models. This research also evaluates how merging the quantized adapter with the base model influences the generation quality. Source code and tuned models are available at https://github.com/NLPForUA/ZNO.