Exploring Variability in Fine-Tuned Models for Text Classification with DistilBERT

📄 arXiv: 2501.00241v1 📥 PDF

作者: Giuliano Lorenzoni, Ivens Portugal, Paulo Alencar, Donald Cowan

分类: cs.CL, cs.AI

发布日期: 2024-12-31


💡 一句话要点

研究DistilBERT微调策略中超参数对文本分类模型性能的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本分类 DistilBERT 微调 超参数优化 多项式回归

📋 核心要点

  1. 现有文本分类模型微调过程中,超参数的选择缺乏系统性的分析,导致模型性能不稳定且难以优化。
  2. 本研究通过多项式回归分析,量化了学习率、批次大小和epochs等超参数对DistilBERT模型性能的影响。
  3. 实验结果揭示了超参数之间的非线性交互作用,以及不同性能指标之间的权衡关系,为模型微调提供了指导。

📝 摘要(中文)

本研究评估了使用DistilBERT模型(特别是distilbert-base-uncased-finetuned-sst-2-english变体)进行文本分类的微调策略。通过结构化的实验,我们检验了学习率、批次大小和epochs等超参数对准确率、F1分数和损失的影响。多项式回归分析捕捉了这些超参数的基础和增量影响,重点关注相对于基线模型的微调调整。结果表明,超参数配置导致指标出现变异,并显示了性能指标之间的权衡。例如,较高的学习率降低了相对分析中的损失(p=0.027),但对准确率的提高提出了挑战。同时,批次大小在绝对回归中显著影响准确率和F1分数(p=0.028和p=0.005),但对损失优化影响有限(p=0.170)。epochs和批次大小之间的相互作用最大化了F1分数(p=0.001),突出了超参数相互作用的重要性。这些发现强调了微调策略需要解决非线性超参数相互作用,以平衡跨指标的性能。这种变异性和指标权衡与文本分类以外的任务相关,包括NLP和计算机视觉。该分析为大型语言模型的微调策略提供了信息,并促进了更广泛模型适用性的自适应设计。

🔬 方法详解

问题定义:论文旨在解决文本分类任务中,如何有效地微调DistilBERT模型以获得最佳性能的问题。现有方法在选择超参数时缺乏理论指导,通常依赖于经验或网格搜索,效率低下且难以保证模型性能的稳定性。此外,不同超参数之间的相互作用也未被充分考虑。

核心思路:论文的核心思路是通过结构化的实验和多项式回归分析,量化不同超参数(如学习率、批次大小和epochs)对模型性能的影响,并揭示它们之间的非线性交互作用。通过分析超参数对准确率、F1分数和损失的影响,找到最佳的超参数组合,从而提高模型性能。

技术框架:论文的技术框架主要包括以下几个步骤: 1. 选择DistilBERT模型(distilbert-base-uncased-finetuned-sst-2-english变体)作为基础模型。 2. 设计结构化的实验,系统地改变学习率、批次大小和epochs等超参数。 3. 使用多项式回归分析,量化超参数对模型性能指标(准确率、F1分数和损失)的影响。 4. 分析超参数之间的交互作用,找到最佳的超参数组合。 5. 评估微调后的模型在文本分类任务上的性能。

关键创新:论文的关键创新在于: 1. 系统地研究了超参数对DistilBERT模型微调的影响,并量化了它们之间的关系。 2. 使用多项式回归分析揭示了超参数之间的非线性交互作用,这在以往的研究中较少被关注。 3. 强调了不同性能指标之间的权衡关系,为模型微调提供了更全面的指导。

关键设计:论文的关键设计包括: 1. 选择distilbert-base-uncased-finetuned-sst-2-english作为基础模型,因为它已经在SST-2数据集上进行了预训练,可以作为微调的良好起点。 2. 使用多项式回归分析,可以捕捉超参数之间的非线性关系。 3. 关注准确率、F1分数和损失等多个性能指标,可以更全面地评估模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,较高的学习率可以降低损失,但可能影响准确率的提升。批次大小对准确率和F1分数有显著影响(p=0.028和p=0.005),而epochs和批次大小的交互作用可以最大化F1分数(p=0.001)。这些结果强调了超参数之间存在复杂的非线性关系,需要仔细调整。

🎯 应用场景

该研究成果可应用于各种文本分类任务,例如情感分析、垃圾邮件检测、新闻分类等。通过优化超参数,可以提高文本分类模型的准确性和效率。此外,该研究的方法也可以推广到其他自然语言处理任务和计算机视觉任务中,为模型微调提供指导。

📄 摘要(原文)

This study evaluates fine-tuning strategies for text classification using the DistilBERT model, specifically the distilbert-base-uncased-finetuned-sst-2-english variant. Through structured experiments, we examine the influence of hyperparameters such as learning rate, batch size, and epochs on accuracy, F1-score, and loss. Polynomial regression analyses capture foundational and incremental impacts of these hyperparameters, focusing on fine-tuning adjustments relative to a baseline model. Results reveal variability in metrics due to hyperparameter configurations, showing trade-offs among performance metrics. For example, a higher learning rate reduces loss in relative analysis (p=0.027) but challenges accuracy improvements. Meanwhile, batch size significantly impacts accuracy and F1-score in absolute regression (p=0.028 and p=0.005) but has limited influence on loss optimization (p=0.170). The interaction between epochs and batch size maximizes F1-score (p=0.001), underscoring the importance of hyperparameter interplay. These findings highlight the need for fine-tuning strategies addressing non-linear hyperparameter interactions to balance performance across metrics. Such variability and metric trade-offs are relevant for tasks beyond text classification, including NLP and computer vision. This analysis informs fine-tuning strategies for large language models and promotes adaptive designs for broader model applicability.