MoRFI: Monotonic Sparse Autoencoder Feature Identification

📄 arXiv: 2604.26866v1 📥 PDF

作者: Dimitris Dimakopoulos, Shay B. Cohen, Ioannis Konstas

分类: cs.CL, cs.LG

发布日期: 2026-04-29


💡 一句话要点

提出MoRFI方法,用于识别微调后大语言模型中导致幻觉的单调稀疏自编码器特征。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉 稀疏自编码器 微调 因果关系 知识表示 单调关系特征识别

📋 核心要点

  1. 现有研究表明,监督微调会加剧LLM的幻觉问题,但潜在机制尚不明确,需要进一步探索。
  2. 论文提出MoRFI方法,通过分析残差流激活,识别与幻觉因果相关的单调稀疏自编码器特征。
  3. 实验表明,暴露于未知事实会干扰模型检索知识的能力,MoRFI能可靠地发现并干预这些特征。

📝 摘要(中文)

大型语言模型(LLM)的大部分事实知识是在预训练阶段通过下一个token预测获得的。随后的后训练阶段经常引入参数知识之外的新事实,从而导致幻觉。虽然已经证明在新知识上进行监督微调(SFT)可能会加剧这个问题,但其潜在机制仍未被很好地理解。我们进行了一项受控的微调实验,重点关注闭卷问答,并找到因果关系上导致幻觉的潜在方向。具体来说,我们在七个不同的单QA数据集上对Llama 3.1 8B、Gemma 2 9B和Mistral 7B v03进行微调,控制新知识的百分比和训练epoch的数量。通过测量测试集上的性能,我们验证了增量引入新知识会增加幻觉,并且随着训练时间的延长,这种影响更加明显。我们利用预训练的稀疏自编码器(SAE)来分析每个模型在各个检查点上的残差流激活,并提出单调关系特征识别(MoRFI)来捕获因果相关的潜在变量。MoRFI过滤SAE特征,这些特征对目标属性的受控微调数据混合物做出单调响应。我们的研究结果表明,暴露于未知事实会扰乱模型沿残差流中的一组方向检索存储知识的能力。我们的pipeline可靠地在不同的模型中发现它们,并通过单潜在干预恢复知识。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在微调过程中产生幻觉的问题。现有方法难以有效识别导致幻觉的潜在因素,特别是模型内部表示的变化如何影响知识检索能力。监督微调虽然能引入新知识,但也可能破坏模型原有的知识结构,导致生成不准确或虚假的信息。

核心思路:论文的核心思路是利用稀疏自编码器(SAE)分析模型微调过程中的残差流激活,并提出Monotonic Relationship Feature Identification (MoRFI) 方法来识别与幻觉因果相关的潜在变量。MoRFI通过筛选对特定属性(如新知识比例)的微调数据混合物做出单调响应的SAE特征,从而定位那些在模型学习新知识时发生显著变化的内部表示。

技术框架:整体流程包括以下几个阶段:1) 在不同的单QA数据集上对LLM进行微调,控制新知识的比例和训练轮数;2) 使用预训练的SAE分析模型在不同检查点上的残差流激活;3) 应用MoRFI方法筛选出对新知识比例单调响应的SAE特征;4) 通过单潜在干预验证这些特征与幻觉的因果关系。

关键创新:MoRFI方法是本研究的关键创新点。它通过单调性约束,有效地从大量SAE特征中筛选出与特定属性(如新知识)变化相关的特征,从而实现了对导致幻觉的潜在因素的精准定位。与传统的特征分析方法相比,MoRFI能够更好地捕捉模型内部表示的细微变化,并揭示其与幻觉之间的因果关系。

关键设计:MoRFI的关键设计在于其单调性筛选机制。具体来说,对于每个SAE特征,MoRFI会评估其激活值与新知识比例之间的关系。只有当激活值随着新知识比例的增加或减少呈现单调变化时,该特征才会被认为是与幻觉相关的。此外,论文还采用了单潜在干预的方法来验证这些特征的因果关系,即通过修改这些特征的激活值来观察模型输出的变化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,随着新知识的引入,模型在测试集上的表现下降,幻觉现象加剧。MoRFI方法能够可靠地在Llama 3.1 8B、Gemma 2 9B和Mistral 7B v03等不同模型中发现与幻觉相关的特征,并通过单潜在干预成功恢复知识。

🎯 应用场景

该研究成果可应用于提升大型语言模型的事实性和可靠性,减少幻觉现象。通过识别并干预导致幻觉的内部表示,可以开发更稳健的微调策略,提高模型在知识密集型任务中的表现。此外,该方法还可用于分析和理解模型内部知识表示的机制,为模型的可解释性研究提供新的视角。

📄 摘要(原文)

Large language models (LLMs) acquire most of their factual knowledge during the pre-training stage, through next token prediction. Subsequent stages of post-training often introduce new facts outwith the parametric knowledge, giving rise to hallucinations. While it has been demonstrated that supervised fine-tuning (SFT) on new knowledge may exacerbate the problem, the underlying mechanisms are still poorly understood. We conduct a controlled fine-tuning experiment, focusing on closed-book QA, and find latent directions that causally contribute to hallucinations. Specifically, we fine-tune Llama 3.1 8B, Gemma 2 9B and Mistral 7B v03 on seven distinct single QA datasets, controlling for the percentage of new knowledge and number of training epochs. By measuring performance on the test set, we validate that incrementally introducing new knowledge increases hallucinations, with the effect being more pronounced with prolonged training. We leverage pre-trained sparse autoencoders (SAEs) to analyze residual stream activations across various checkpoints for each model and propose Monotonic Relationship Feature Identification (MoRFI) for capturing causally relevant latents. MoRFI filters SAE features that respond monotonically to controlled fine-tuning data mixtures of a target property. Our findings show that exposure to unknown facts disrupts the model's ability to retrieve stored knowledge along a set of directions in the residual stream. Our pipeline reliably discovers them across distinct models, recovering knowledge through single-latent interventions.