Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective

📄 arXiv: 2605.17967v1 📥 PDF

作者: Junpeng Zhang, Lei Cheng, Guoxi Zhang, Hua Cai, Qing Xu, Quanshi Zhang

分类: cs.AI

发布日期: 2026-05-18


💡 一句话要点

基于交互视角,揭示SFT在LLM中效果不一致的原因并提供训练指导

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 监督微调 大型语言模型 交互解释 推理模式 早停策略

📋 核心要点

  1. 现有SFT方法在LLM上效果不稳定,缺乏对内部推理模式影响的深入理解。
  2. 论文提出基于token交互的度量方法,分析SFT过程中LLM推理模式的演变。
  3. 实验表明SFT主要进行去噪,且易过拟合,为LLM训练提供早停策略指导。

📝 摘要(中文)

本文探讨了监督微调(SFT)中的一个科学问题:为什么SFT在小规模深度神经网络中广泛有效,但在应用于大型语言模型(LLM)时会产生不一致甚至有害的影响。基于交互的解释的最新进展表明,词/token之间的交互提供了一种可靠的度量,用于量化LLM编码的推理模式。我们发现,SFT期间交互的演变可以有效地解释SFT对LLM的不一致有效性。具体来说,我们发现(1)SFT主要消除噪声类交互,很少获得可靠的新交互。(2)这个去噪阶段非常短暂,之后持续的微调往往会引入过拟合的交互。我们在多个LLM和数据集上验证了这些发现。我们的发现为提前停止提供了新的见解,并为LLM训练提供了实用的指导。

🔬 方法详解

问题定义:论文旨在解决SFT在大型语言模型(LLM)上效果不一致的问题。现有方法缺乏对SFT如何影响LLM内部推理模式的理解,导致无法有效控制微调过程,容易出现过拟合或欠拟合现象。现有方法难以解释SFT在不同LLM和数据集上的表现差异,缺乏通用性指导。

核心思路:论文的核心思路是通过分析token之间的交互关系来理解SFT对LLM推理模式的影响。作者认为,token交互能够反映LLM的推理过程,通过观察SFT过程中交互的变化,可以揭示SFT的有效性和潜在问题。这种基于交互的视角能够更细粒度地分析SFT对LLM的影响,从而为优化SFT策略提供依据。

技术框架:论文的技术框架主要包括以下几个阶段:1)使用交互解释方法量化LLM中token之间的交互强度;2)在SFT过程中,定期评估token交互的变化;3)分析交互变化与SFT效果之间的关系,识别SFT的有效阶段和潜在问题;4)基于分析结果,提出改进的SFT策略,例如早停策略。

关键创新:论文最重要的技术创新在于将交互解释方法应用于分析SFT对LLM的影响。通过量化token之间的交互,作者能够更深入地理解SFT如何改变LLM的推理模式。与传统的基于loss或perplexity的评估方法相比,基于交互的分析能够提供更细粒度、更可解释的SFT效果评估。

关键设计:论文的关键设计包括:1)选择合适的交互解释方法,例如基于梯度的交互计算方法;2)设计合理的评估指标,用于量化交互的变化,例如交互强度的均值、方差等;3)确定合适的SFT训练策略,例如学习率、batch size等;4)设计有效的早停策略,避免SFT过程中的过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SFT主要消除噪声类交互,且去噪阶段非常短暂,之后容易引入过拟合的交互。通过分析交互变化,可以有效地预测SFT的效果,并指导早停策略的制定。在多个LLM和数据集上的验证结果表明,该方法具有较强的通用性和有效性。

🎯 应用场景

该研究成果可应用于各种基于LLM的自然语言处理任务,例如文本生成、机器翻译、问答系统等。通过理解SFT对LLM推理模式的影响,可以更有效地进行模型微调,提高模型性能。此外,该研究提出的早停策略可以减少训练时间和计算资源消耗,具有重要的实际应用价值。

📄 摘要(原文)

This paper explores a scientific question in supervised fine-tuning (SFT): why SFT is broadly effective for small-scale deep neural networks, yet can produce inconsistent or even detrimental effects when applied to large language models (LLMs). Recent advances in interaction-based explanations suggest that interactions between words/tokens provide a faithful metric for quantifying the inference patterns encoded by LLMs. We find that the evolution of interactions during SFT can effectively explain the inconsistent effectiveness of SFT for LLMs. Specifically, we find that (1) SFT primarily removes noise-like interactions, while rarely acquiring reliable new interactions. (2) This denoising stage is extremely brief, after which continued fine-tuning tends to introduce overfitted interactions. We validate these findings across multiple LLMs and datasets. Our findings provide new insights into early stopping and offer practical guidance for LLM training.