Beyond Perplexity: A Lightweight Benchmark for Knowledge Retention in Supervised Fine-Tuning

📄 arXiv: 2601.03505v1 📥 PDF

作者: Soheil Zibakhsh Shabgahi, Pedram Aghazadeh, Farinaz Koushanfar

分类: cs.CL, cs.AI

发布日期: 2026-01-07


💡 一句话要点

提出KR-Test,用于评估SFT中LLM的知识保留能力,区分事实学习与语言模仿。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识保留 监督式微调 大型语言模型 评估框架 对比学习

📋 核心要点

  1. 现有方法依赖困惑度评估SFT效果,无法区分模型是真正学习了知识,还是仅仅模仿了语言风格。
  2. 提出KR-Test,通过对比模型对正确和错误延续的偏好,来评估模型是否真正保留了知识。
  3. 实验表明KR-Test能够有效诊断LoRA的训练动态,揭示语言收敛和知识保留之间的差异。

📝 摘要(中文)

监督式微调(SFT)是将领域知识注入大型语言模型(LLM)的标准方法。然而,仅仅依靠验证困惑度来监控训练通常是不够的,因为它会将风格模仿与真正的知识内化混淆。为了解决这个问题,我们引入了知识保留(KR)测试,这是一个轻量级的、基于语料库的评估框架,旨在区分事实学习和语言能力。KR-Test利用自动生成的对比示例来衡量模型对正确与错误延续的偏好,无需指令调优或生成解码。我们通过“盲人vs.预言家”基线分析验证了框架的完整性。此外,我们通过分析低秩适应(LoRA)的训练动态,展示了KR-Test的诊断能力。通过揭示语言收敛和知识保留之间的细粒度分离,KR-Test增强了对微调动态的可解释性。

🔬 方法详解

问题定义:现有方法在评估监督式微调(SFT)后的大型语言模型(LLM)时,主要依赖验证困惑度。然而,困惑度无法区分模型是真正内化了事实知识,还是仅仅学会了模仿训练数据的语言风格。这使得我们难以准确评估SFT是否成功地将领域知识注入到LLM中。

核心思路:KR-Test的核心思路是通过构造对比示例,直接测试模型对事实知识的掌握程度。具体来说,对于一个给定的事实,KR-Test会生成一个正确的延续和一个错误的延续,然后比较模型对这两个延续的概率偏好。如果模型更倾向于正确的延续,则表明它掌握了该事实。

技术框架:KR-Test的整体框架包括以下几个步骤:1) 从语料库中提取事实陈述。2) 对于每个事实陈述,自动生成一个正确的延续和一个错误的延续。3) 使用LLM计算每个延续的概率。4) 比较正确延续和错误延续的概率,计算KR-Score。KR-Score越高,表明模型对知识的保留程度越高。

关键创新:KR-Test的关键创新在于它提供了一种轻量级、无需指令调优或生成解码的方法来评估LLM的知识保留能力。与传统的评估方法相比,KR-Test更加直接、高效,并且能够更好地区分事实学习和语言模仿。此外,KR-Test是基于语料库的,可以方便地扩展到不同的领域和知识类型。

关键设计:KR-Test的关键设计包括:1) 对比示例的自动生成方法,需要保证生成的错误延续在语法上是合理的,但与事实相悖。2) KR-Score的计算方法,需要能够有效地衡量模型对正确延续的偏好程度。论文中使用了简单的概率比值作为KR-Score,但也可以考虑使用更复杂的指标,例如基于信息论的指标。

📊 实验亮点

论文通过“盲人vs.预言家”基线分析验证了KR-Test的有效性。实验结果表明,KR-Test能够有效区分语言收敛和知识保留,并能够诊断LoRA的训练动态。例如,实验揭示了在LoRA训练过程中,语言收敛速度快于知识保留速度,这为更好地理解和优化SFT过程提供了新的视角。

🎯 应用场景

KR-Test可用于评估和比较不同SFT方法的有效性,指导SFT过程中的超参数调整,以及诊断LLM的知识缺陷。它还可以应用于知识图谱补全、问答系统等领域,提高LLM在特定领域的应用效果。未来,KR-Test可以扩展到评估多模态LLM的知识保留能力。

📄 摘要(原文)

Supervised Fine-Tuning (SFT) is a standard approach for injecting domain knowledge into Large Language Models (LLMs). However, relying on validation perplexity to monitor training is often insufficient, as it confounds stylistic mimicry with genuine factual internalization. To address this, we introduce the Knowledge Retention (KR) Test , a lightweight, corpus-grounded evaluation framework designed to distinguish factual learning from linguistics. KR-Test utilizes automatically generated contrastive examples to measure likelihood preferences for correct versus incorrect continuations, requiring no instruction tuning or generative decoding. We validate the framework's integrity through a "blind vs. oracle" baseline analysis. Furthermore, we demonstrate the diagnostic capabilities of KR-Test by analyzing the training dynamics of Low-Rank Adaptation (LoRA). By exposing the fine-grained dissociation between linguistic convergence and knowledge retention, KR-Test enhances the interpretability of fine-tuning dynamics.