Does This Look Familiar to You? Knowledge Analysis via Model Internal Representations

📄 arXiv: 2509.07311v1 📥 PDF

作者: Sihyun Park

分类: cs.CL, cs.AI

发布日期: 2025-09-09


💡 一句话要点

提出KAMIR方法,通过模型内部表征分析进行高效训练数据选择,提升模型泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据选择 模型内部表征 监督微调 大型语言模型 泛化能力 知识分析 机器阅读理解

📋 核心要点

  1. 现有SFT训练中,数据选择缺乏有效方法,简单增加数据量或依赖提示工程的方法存在局限性。
  2. KAMIR通过分析模型内部表征,计算隐藏层状态相似度,评估数据对模型的熟悉程度。
  3. 实验表明,使用KAMIR选择的不熟悉数据进行训练,能够提升模型在多种任务上的泛化性能。

📝 摘要(中文)

大型语言模型(LLMs)的最新进展得益于预训练、监督微调(SFT)和对齐调整。其中,SFT在将模型的通用知识转化为针对特定任务的结构化响应方面起着关键作用。然而,目前还没有明确有效的数据选择方法。简单地增加数据量并不能保证性能的提升,而预处理、抽样和验证需要大量的时间和成本。为了解决这个问题,已经提出了各种数据选择方法。其中,基于知识的选择方法通过分析模型的响应来识别合适的训练数据。然而,这些方法通常依赖于提示工程,使其对变化敏感,并产生额外的提示设计成本。在本研究中,我们提出了一种新的方法,即通过模型内部表征进行知识分析(KAMIR),它通过分析模型内部表征的数据来克服这些限制。KAMIR计算每一层(块)的隐藏状态与给定输入的最终隐藏状态之间的相似性来评估数据。与主要局限于多项选择任务的先前方法不同,KAMIR可以应用于广泛的任务,如机器阅读理解和摘要。此外,即使使用小型数据集和简单的分类器架构,它也能基于模型对输入的熟悉程度选择对训练有用的数据。跨不同任务数据集的实验表明,使用不太熟悉的数据进行训练可以带来更好的泛化性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型监督微调(SFT)过程中,如何高效选择训练数据的问题。现有方法,如简单增加数据量或基于prompt工程的数据选择方法,存在效率低下、泛化性差以及对prompt敏感等痛点。

核心思路:论文的核心思路是利用模型自身的内部表征来评估数据的价值。具体来说,通过分析模型在处理输入数据时各层隐藏状态的相似性,来判断模型对该数据的“熟悉程度”。认为模型越不熟悉的数据,越能为模型带来新的知识,从而提升模型的泛化能力。

技术框架:KAMIR方法主要包含以下几个阶段:1) 输入数据到模型,获取每一层(block)的隐藏状态;2) 计算每一层隐藏状态与最终隐藏状态之间的相似度;3) 基于相似度得分,评估数据对模型的熟悉程度;4) 选择“不熟悉”的数据用于训练。整体流程简单清晰,易于实现。

关键创新:KAMIR的关键创新在于它避免了对prompt工程的依赖,直接利用模型内部的表征信息进行数据选择。与以往主要针对多项选择任务的方法不同,KAMIR可以应用于更广泛的任务类型,如机器阅读理解和文本摘要。

关键设计:KAMIR的关键设计在于相似度计算方式的选择。论文中具体使用的相似度计算方法未知,但可以推测使用了余弦相似度或其他常用的向量相似度度量方法。此外,如何确定“不熟悉”数据的阈值也是一个关键参数,可能需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,使用KAMIR方法选择的数据进行训练,能够提升模型在多种任务上的泛化性能。具体性能提升数据未知,但论文强调即使使用小型数据集和简单的分类器架构,KAMIR也能有效选择有用的训练数据。与依赖prompt工程的方法相比,KAMIR具有更好的稳定性和适用性。

🎯 应用场景

KAMIR方法可广泛应用于大型语言模型的监督微调阶段,尤其是在数据资源有限或数据质量参差不齐的情况下。通过筛选出对模型而言信息量更大的数据,可以有效提升模型的泛化能力和性能,降低训练成本。该方法还可用于主动学习,指导数据标注人员优先标注对模型提升最有帮助的数据。

📄 摘要(原文)

Recent advances in large language models (LLMs) have been driven by pretraining, supervised fine tuning (SFT), and alignment tuning. Among these, SFT plays a crucial role in transforming a model 's general knowledge into structured responses tailored to specific tasks. However, there is no clearly established methodology for effective training data selection. Simply increasing the volume of data does not guarantee performance improvements, while preprocessing, sampling, and validation require substantial time and cost. To address this issue, a variety of data selection methods have been proposed. Among them, knowledge based selection approaches identify suitable training data by analyzing the model 's responses. Nevertheless, these methods typically rely on prompt engineering, making them sensitive to variations and incurring additional costs for prompt design. In this study, we propose Knowledge Analysis via Model Internal Representations (KAMIR), a novel approach that overcomes these limitations by analyzing data based on the model 's internal representations. KAMIR computes similarities between the hidden states of each layer (block) and the final hidden states for a given input to assess the data. Unlike prior methods that were largely limited to multiple choice tasks, KAMIR can be applied to a wide range of tasks such as machine reading comprehension and summarization. Moreover, it selects data useful for training based on the model 's familiarity with the input, even with a small dataset and a simple classifier architecture. Experiments across diverse task datasets demonstrate that training with less familiar data leads to better generalization performance.