$\textit{New News}$: System-2 Fine-tuning for Robust Integration of New Knowledge

📄 arXiv: 2505.01812v3 📥 PDF

作者: Core Francisco Park, Zechen Zhang, Hidenori Tanaka

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-03 (更新: 2025-11-14)


💡 一句话要点

提出System-2微调方法,提升LLM对新知识的稳健整合能力,缩小微调与上下文学习的差距。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识整合 微调 上下文学习 自博弈 System-2 数据生成

📋 核心要点

  1. 大型语言模型在整合新知识到模型权重方面存在挑战,导致微调效果不如上下文学习。
  2. 论文提出System-2微调(Sys2-FT)方法,通过自博弈数据生成协议,将上下文学习的知识提炼到模型权重中。
  3. 实验表明,Sys2-FT显著提高了模型对新知识的内化能力,同时保持了一般能力,并初步发现了缩放定律。

📝 摘要(中文)

人类和智能动物能够内化新信息,并准确地理解其含义以执行下游任务。大型语言模型(LLM)可以通过上下文学习(ICL)实现这一点,当信息(新闻)作为上下文显式给出时,但通过微调将信息充分整合到模型权重中仍然具有挑战性。本文介绍了一个名为New News的数据集,该数据集由假设但合理的新闻组成,涵盖多个领域(数学、编码、发现、排行榜、事件),并附有下游评估问题,其正确答案关键取决于对新闻的理解和内化。首先,我们证明了在我们的数据集上,朴素微调和上下文学习之间存在显著差距(FT-ICL gap)。为了解决这个差距,我们探索了一套自博弈数据生成协议——释义、推论和Self-QA——旨在将模型通过上下文处理的知识提炼到模型的权重中,我们称之为System-2微调(Sys2-FT)。我们使用Qwen 2.5系列模型系统地评估了跨数据领域和模型规模的ICL和Sys2-FT性能。我们的结果表明,Sys2-FT的Self-QA协议显著提高了模型对新闻的权重内学习能力,同时保留了一般能力。此外,我们发现了上下文阴影效应,即在上下文中训练新闻,然后重新措辞或进行问答,会灾难性地降低新闻的学习效果。最后,我们展示了Sys2-FT的新兴缩放定律的初步证据。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)虽然可以通过上下文学习(ICL)利用新信息,但直接通过微调将这些信息整合到模型权重中仍然存在困难。这种微调效果与ICL效果之间的差距(FT-ICL gap)限制了模型在新知识上的泛化能力,尤其是在需要长期记忆和推理的情况下。朴素的微调方法无法有效地将上下文中的知识迁移到模型参数中。

核心思路:论文的核心思路是通过模拟人类的System 2思维过程,即有意识、有控制的思考,来改进微调过程。具体来说,通过自博弈数据生成协议,让模型在上下文中学习新知识后,生成释义、推论和问答等数据,然后利用这些数据进行微调,从而将上下文学习到的知识“蒸馏”到模型权重中。这种方法旨在使模型能够像人类一样,主动地理解和内化新信息。

技术框架:整体框架包含以下几个主要阶段: 1. 上下文学习阶段:模型首先通过ICL学习新信息(新闻)。 2. 自博弈数据生成阶段:模型基于上下文中的新闻,使用不同的协议(释义、推论、Self-QA)生成新的训练数据。 3. 微调阶段:使用生成的数据对模型进行微调,将知识整合到模型权重中。 4. 评估阶段:使用下游任务评估模型对新知识的掌握程度。

关键创新:最重要的技术创新点在于System-2微调(Sys2-FT)的概念,以及相应的自博弈数据生成协议。与传统的微调方法不同,Sys2-FT不是简单地将新信息作为训练数据,而是通过模拟人类的思考过程,让模型主动地理解和内化新信息,从而更有效地将知识整合到模型权重中。Self-QA协议表现出最佳的性能。

关键设计: * 自博弈数据生成协议:包括释义(paraphrases)、推论(implications)和Self-QA。Self-QA协议要求模型根据新闻生成问题,并自己回答这些问题,从而更深入地理解新闻的内容。 * 上下文阴影效应:论文发现,先在上下文中训练新闻,然后使用释义或问答进行微调,反而会降低模型对新闻的学习效果。这表明需要仔细设计微调策略,避免干扰模型对原始信息的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Sys2-FT的Self-QA协议显著提高了模型对新闻的权重内学习能力,缩小了微调和上下文学习之间的差距。此外,论文还发现了上下文阴影效应,并初步验证了Sys2-FT的缩放定律。这些发现为进一步研究LLM的知识整合能力提供了重要的启示。

🎯 应用场景

该研究成果可应用于各种需要快速整合新知识的场景,例如:金融分析(快速理解市场新闻并做出决策)、医疗诊断(学习最新的医学研究成果)、智能客服(及时更新知识库并回答用户问题)等。通过Sys2-FT,可以提升LLM在动态环境中的适应性和决策能力,使其能够更好地服务于各行各业。

📄 摘要(原文)

Humans and intelligent animals can internalize new information and accurately internalize their implications to perform downstream tasks. While large language models (LLMs) can achieve this through in-context learning (ICL) when the information (news) is explicitly given as context, adequately integrating the information into model weights via fine-tuning remains challenging. In this paper, we introduce New News, a dataset composed of hypothetical yet plausible news spanning multiple domains (mathematics, coding, discoveries, leaderboards, events), accompanied by downstream evaluation questions whose correct answers critically depend on understanding and internalizing the news. First, we demonstrate a substantial gap between naive fine-tuning and in-context learning (FT-ICL gap) on our dataset. To address this gap, we explore a suite of self-play data generation protocols -- paraphrases, implications, and Self-QA -- designed to distill the knowledge processed by the model with context into the weights of the model, which we term System-2 Fine-tuning (Sys2-FT). We systematically evaluate ICL and Sys2-FT performance across data domains and model scales with the Qwen 2.5 family of models. Our results demonstrate that the Self-QA protocol of Sys2-FT significantly improves models' in-weight learning of the news while preserving general capabilities. Furthermore, we discover the contextual shadowing effect, where training with the news in context followed by its rephrases or QAs catastrophically degrades learning of the news. Finally, we show preliminary evidence of an emerging scaling law of Sys2-FT.