Full-Parameter Continual Pretraining of Gemma2: Insights into Fluency and Domain Knowledge
作者: Vytenis Šliogeris, Povilas Daniušis, Artūras Nakvosas
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-05-09 (更新: 2025-06-05)
备注: 9 pages, 3 figures, 1 table
🔗 代码/项目: GITHUB
💡 一句话要点
通过全参数持续预训练Gemma2提升立陶宛语能力并保持领域知识
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 大型语言模型 弹性权重巩固 低资源语言 灾难性遗忘
📋 核心要点
- 现有方法难以在提升LLM对低资源语言能力的同时,避免灾难性遗忘已有的领域知识。
- 论文提出使用弹性权重巩固(EWC)方法,在持续预训练过程中保护模型已有的知识。
- 实验结果表明,EWC不仅减轻了灾难性遗忘,还提升或保持了模型在新增语言上的性能。
📝 摘要(中文)
本技术报告实证研究了大型语言模型(LLM)持续学习中语言流畅性和领域知识之间的关系。具体而言,我们通过在CulturaX数据集立陶宛语部分的10%数据上自回归预训练Gemma2 LLM的完整参数集,来增强其立陶宛语的语言流畅性。为了防止模型现有领域知识的灾难性遗忘,我们应用了弹性权重巩固(EWC),利用使用大规模多任务语言理解(MMLU)基准数据估计的Fisher信息。在后训练评估中,我们通过困惑度评估语言流畅性,并使用包括ARC-Easy、Belebele、GSM8K、HellaSwag、MMLU、TruthfulQA和Winogrande在内的一系列英语和立陶宛语语言理解基准测试的准确性来评估领域知识。实证结果表明,EWC不仅通过保持模型在语言流畅性和领域知识方面的性能来减轻灾难性遗忘,而且还改进或保持了新增立陶宛语的这些能力。这些发现突出了更有效地将通用LLM适配到代表性不足的语言的潜力,而无需访问原始训练数据。随附的代码库可在https://github.com/Neurotechnology/LLM_EWC公开访问。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在持续学习过程中,尤其是针对低资源语言进行增量训练时,如何避免灾难性遗忘原有领域知识的问题。现有方法在提升模型对新语言的流畅性时,往往会损害模型在其他任务上的表现,导致性能下降。
核心思路:论文的核心思路是利用弹性权重巩固(EWC)方法,在模型训练过程中对重要参数进行保护。EWC通过估计Fisher信息矩阵,识别对原有任务性能影响较大的参数,并在后续训练中对这些参数的改变进行惩罚,从而防止灾难性遗忘。
技术框架:整体框架包括以下几个阶段:1) 使用Gemma2模型作为基础模型;2) 在CulturaX数据集的立陶宛语部分进行持续预训练,以提升模型对立陶宛语的流畅性;3) 使用EWC方法,利用MMLU基准数据估计Fisher信息矩阵,对重要参数进行保护;4) 在一系列英语和立陶宛语的语言理解基准测试上评估模型的性能,包括语言流畅性和领域知识。
关键创新:论文的关键创新在于将EWC方法应用于LLM的全参数持续预训练,并验证了其在提升低资源语言能力的同时,有效缓解灾难性遗忘的能力。与传统的微调方法相比,EWC能够在不访问原始训练数据的情况下,更好地保持模型的通用性。
关键设计:论文的关键设计包括:1) 使用CulturaX数据集的立陶宛语部分进行预训练,以提升模型对立陶宛语的流畅性;2) 使用MMLU基准数据估计Fisher信息矩阵,用于EWC的权重巩固;3) 在多个语言理解基准测试上进行评估,包括ARC-Easy、Belebele、GSM8K、HellaSwag、MMLU、TruthfulQA和Winogrande,以全面评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用EWC进行持续预训练后,Gemma2模型在提升立陶宛语流畅性的同时,在英语和立陶宛语的多个语言理解基准测试上保持或提升了性能。这验证了EWC在缓解灾难性遗忘方面的有效性,并表明该方法可以更有效地将通用LLM适配到代表性不足的语言。
🎯 应用场景
该研究成果可应用于低资源语言的大型语言模型开发,帮助快速构建特定语言的LLM,并保持其通用性。该方法无需访问原始训练数据,降低了模型适配的成本,具有广泛的应用前景,例如机器翻译、跨语言信息检索等。
📄 摘要(原文)
In this technical report, we empirically investigate the relationship between linguistic fluency and domain knowledge in the context of continual learning with large language models (LLMs). Specifically, we enhance the linguistic fluency of the Gemma2 LLM for the Lithuanian language by autoregressively pretraining its full parameter set on the first 10\% of the Lithuanian language component of the CulturaX dataset. To prevent catastrophic forgetting of the model's existing domain knowledge, we apply Elastic Weight Consolidation (EWC), leveraging Fisher information estimated using data from the Massive Multitask Language Understanding (MMLU) benchmark. In the post-training evaluations, we assess linguistic fluency through perplexity and evaluate domain knowledge using accuracy on a suite of language understanding benchmarks, including ARC-Easy, Belebele, GSM8K, HellaSwag, MMLU, TruthfulQA, and Winogrande, in both English and Lithuanian. The empirical results demonstrate that EWC not only mitigates catastrophic forgetting by preserving the model's performance in terms of both linguistic fluency and domain knowledge but also improves or maintains these capabilities for the newly added Lithuanian language. These findings highlight the potential for more efficient adaptation of general-purpose LLMs to under-represented languages without requiring access to the original training data. The accompanying codebase is openly accessible at https://github.com/Neurotechnology/LLM_EWC.