Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models

作者: Sonam Gupta, Yatin Nandwani, Asaf Yehudai, Dinesh Khandelwal, Dinesh Raghu, Sachindra Joshi

分类: cs.CL

发布日期: 2025-02-12 (更新: 2025-02-20)

备注: 10 pages, Accepted to NAACL Findings 2025. arXiv admin note: text overlap with arXiv:2409.04787

💡 一句话要点

提出选择性自监督微调S3FT，提升大语言模型泛化能力并避免过拟合。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 微调 泛化能力 自监督学习 选择性学习

📋 核心要点

现有监督微调方法在提升LLM特定任务性能时，容易导致过拟合，损失泛化能力。
S3FT利用模型自身产生的正确响应，减少微调过程中的模型专业化，提升泛化性。
实验表明，S3FT能有效降低标准SFT带来的性能下降，并在微调任务上取得更好效果。

📝 摘要（中文）

本文提出了一种新的微调方法，称为选择性自监督微调（S3FT），旨在提高大型语言模型（LLM）在特定任务上的性能，同时改善其泛化能力。S3FT利用了对同一查询可能存在多个有效响应的特性。通过利用模型自身的正确响应，S3FT减少了微调阶段的模型专业化。该方法首先通过部署合适的判别器从训练集中识别正确的模型响应，然后使用正确的模型响应和黄金响应（或其释义）对剩余样本进行微调。在数学推理、Python编程和阅读理解任务上的实验结果表明，标准监督微调（SFT）可能导致在MMLU和TruthfulQA等多个基准测试中平均性能下降高达4.4%。相比之下，S3FT将这一降幅降低了一半，即2.5%，表明其具有比SFT更好的泛化能力，同时在微调任务上表现显著更好。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在特定数据集上进行微调时，虽然可以提高在目标任务上的性能，但往往会导致过拟合，即模型过度适应训练数据的特性，从而丧失了在未见过数据上的泛化能力。这种过拟合问题限制了LLM在实际应用中的效果。

核心思路：S3FT的核心思路是利用LLM自身生成的多样性响应，从中选择正确的响应作为微调的补充信息，从而避免模型过度拟合到单一的“正确”答案。通过同时学习模型的正确响应和人工标注的黄金响应，S3FT旨在平衡任务性能和泛化能力。

技术框架：S3FT方法主要包含两个阶段：1) 正确响应识别：使用一个判别器（judge）从模型生成的多个响应中识别出正确的响应。判别器可以是另一个预训练模型或者基于规则的方法。2) 选择性微调：对于每个训练样本，如果模型生成了正确的响应，则使用该响应进行微调；否则，使用黄金响应（或其释义）进行微调。

关键创新：S3FT的关键创新在于其选择性地利用模型自身的输出来进行微调，而不是完全依赖人工标注的黄金数据。这种自监督的方式可以帮助模型更好地理解数据的内在结构，从而提高泛化能力。与传统的监督微调相比，S3FT更加注重利用模型自身的知识，减少了对外部数据的依赖。

关键设计：判别器的选择是S3FT的关键设计之一。判别器的性能直接影响到正确响应的识别准确率，进而影响到微调的效果。论文中可能使用了不同的判别器，并比较了它们的效果。此外，如何平衡模型自身响应和黄金响应在微调过程中的权重也是一个重要的设计考虑。损失函数的设计可能也需要进行调整，以更好地利用模型自身的知识。

🖼️ 关键图片

📊 实验亮点

实验结果表明，S3FT在多个基准测试中优于标准的监督微调（SFT）。具体来说，标准SFT可能导致在MMLU和TruthfulQA等基准测试中平均性能下降高达4.4%，而S3FT将这一降幅降低了一半，达到2.5%。这表明S3FT在提高泛化能力的同时，也能保持甚至提升在特定任务上的性能。

🎯 应用场景

S3FT方法可以广泛应用于需要对大型语言模型进行微调的场景，例如智能客服、机器翻译、代码生成、文本摘要等。通过提高模型的泛化能力，S3FT可以使LLM在实际应用中更加可靠和有效。该方法还有助于降低对大量高质量标注数据的依赖，从而降低微调的成本。

📄 摘要（原文）

Fine-tuning Large Language Models (LLMs) on specific datasets is a common practice to improve performance on target tasks. However, this performance gain often leads to overfitting, where the model becomes too specialized in either the task or the characteristics of the training data, resulting in a loss of generalization. This paper introduces Selective Self-to-Supervised Fine-Tuning (S3FT), a fine-tuning approach that achieves better performance than the standard supervised fine-tuning (SFT) while improving generalization. S3FT leverages the existence of multiple valid responses to a query. By utilizing the model's correct responses, S3FT reduces model specialization during the fine-tuning stage. S3FT first identifies the correct model responses from the training set by deploying an appropriate judge. Then, it fine-tunes the model using the correct model responses and the gold response (or its paraphrase) for the remaining samples. The effectiveness of S3FT is demonstrated through experiments on mathematical reasoning, Python programming and reading comprehension tasks. The results show that standard SFT can lead to an average performance drop of up to $4.4$ on multiple benchmarks, such as MMLU and TruthfulQA. In contrast, S3FT reduces this drop by half, i.e. $2.5$, indicating better generalization capabilities than SFT while performing significantly better on the fine-tuning tasks.

Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理