Assessing the Macro and Micro Effects of Random Seeds on Fine-Tuning Large Language Models
作者: Nghia Bui, Guergana Savova, Lijing Wang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-03-10 (更新: 2025-11-05)
备注: 7 pages, 5 tables, 3 figures. Accepted at IJCNLP 2025. This is the final, peer-reviewed version of the work, which supersedes and extends the unauthorized draft previously posted as arXiv:2503.07329
💡 一句话要点
评估随机种子对微调大型语言模型宏观和微观层面的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 微调 随机种子 性能评估 一致性 GLUE SuperGLUE
📋 核心要点
- 现有研究忽略了随机种子对微调LLM性能的潜在影响,可能导致评估结果偏差。
- 该研究通过分析宏观指标的方差和引入微观一致性指标,系统评估随机种子的影响。
- 实验表明,随机种子在宏观和微观层面都会引起显著的性能差异,需谨慎对待。
📝 摘要(中文)
本研究系统性地评估了随机种子对微调大型语言模型(LLMs)的影响,而这一影响在很大程度上被忽视,尽管它可能影响模型性能。我们使用GLUE和SuperGLUE基准测试来评估随机种子对LLM的影响。我们通过准确率和F1等传统指标分析宏观层面的影响,计算它们的均值和方差来量化性能波动。为了捕捉微观层面的影响,我们引入了一种新的指标——一致性,用于衡量单个预测在多次运行中的稳定性。实验结果表明,宏观和微观层面都存在显著的方差,强调了在微调和评估中仔细考虑随机种子的必要性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型微调过程中,由于随机种子的不同而导致的性能波动问题。现有方法在评估LLM性能时,通常只进行单次或少数几次实验,忽略了随机种子可能带来的影响,导致评估结果的可靠性降低。
核心思路:论文的核心思路是通过多次实验,改变随机种子,观察模型在宏观指标(如准确率、F1值)和微观指标(单个预测的一致性)上的表现差异,从而量化随机种子对模型性能的影响。这样可以更全面地了解模型的稳定性和泛化能力。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择GLUE和SuperGLUE基准测试数据集;2) 使用不同的随机种子对LLM进行多次微调;3) 计算宏观指标(准确率、F1值)的均值和方差,评估整体性能波动;4) 引入一致性指标,衡量单个预测在不同随机种子下的稳定性;5) 分析宏观和微观指标的统计结果,评估随机种子的影响。
关键创新:该研究的关键创新在于提出了一个用于衡量微观层面影响的指标——“一致性”。传统方法主要关注宏观指标,无法捕捉到单个预测的稳定性。一致性指标通过比较不同随机种子下模型对同一输入的预测结果,可以更细粒度地评估模型的鲁棒性。
关键设计:在实验设计方面,论文可能考虑了以下关键细节:1) 随机种子的选择范围和数量;2) 微调过程中的超参数设置(如学习率、batch size等);3) 一致性指标的具体计算方法(例如,可以使用简单的匹配率或更复杂的相似度度量);4) 统计分析方法,用于评估宏观和微观指标的显著性差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,随机种子对LLM的性能有显著影响,宏观指标(如准确率和F1值)的方差较大,表明模型性能波动明显。此外,一致性指标也显示,即使在相同的输入下,不同随机种子训练出的模型预测结果也可能存在差异。这些结果强调了在微调和评估LLM时,需要充分考虑随机种子的影响。
🎯 应用场景
该研究成果可应用于LLM的可靠性评估和模型选择。在实际应用中,开发者可以通过多次实验并改变随机种子,评估模型的稳定性和泛化能力,从而选择更可靠的模型。此外,该研究也提醒研究人员在发表LLM相关论文时,应报告多次实验的结果,以提高研究的可重复性和可信度。
📄 摘要(原文)
The impact of random seeds in fine-tuning large language models (LLMs) has been largely overlooked despite its potential influence on model performance.In this study, we systematically evaluate the effects of random seeds on LLMs using the GLUE and SuperGLUE benchmarks. We analyze the macro-level impact through traditional metrics like accuracy and F1, calculating their mean and variance to quantify performance fluctuations. To capture the micro-level effects, we introduce a novel metric, consistency, measuring the stability of individual predictions across runs. Our experiments reveal significant variance at both macro and micro levels, underscoring the need for careful consideration of random seeds in fine-tuning and evaluation.