Generalization or Memorization: Dynamic Decoding for Mode Steering

📄 arXiv: 2510.22099v1 📥 PDF

作者: Xuanming Zhang

分类: cs.CL

发布日期: 2025-10-25


💡 一句话要点

提出动态模式引导(DMS)算法,提升大语言模型推理时逻辑一致性和事实准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 泛化能力 记忆能力 信息瓶颈 动态模式引导

📋 核心要点

  1. 大型语言模型存在泛化能力和记忆能力之间的矛盾,难以预测,影响其在高风险场景下的可靠性。
  2. 论文提出动态模式引导(DMS)算法,通过识别模型对记忆的依赖程度,引导模型计算倾向于泛化电路。
  3. 实验表明,DMS 显著提高了逻辑一致性和事实准确性,为提升 LLM 可靠性提供了一种有效方法。

📝 摘要(中文)

大型语言模型(LLMs)表现出令人不安的双重性,既能进行卓越的泛化,又能对训练数据进行脆弱的、逐字的记忆。这种不可预测性削弱了它们在高风险应用中的可靠性。在这项工作中,我们提出了一个统一的框架来理解、识别和控制这些不同的推理模式。首先,我们引入了一个基于信息瓶颈(IB)原则的理论模型,将泛化形式化为学习压缩的、与任务相关的表示,而将记忆形式化为未能压缩。在此理论的基础上,我们开发了动态模式引导(DMS),这是一种新颖的推理时算法,它包含两个组成部分:(1)一个轻量级的、因果关系的线性探针,用于识别模型对记忆的瞬时依赖性,以及(2)一个动态激活引导机制,将模型的计算推向预先识别的泛化电路。我们将DMS构建为一种自对比解码的自适应形式。在推理和忠实性任务上的实验表明,DMS显著提高了逻辑一致性和事实准确性,从而为提高LLM可靠性提供了一种原则性的方法。

🔬 方法详解

问题定义:大型语言模型(LLMs)在推理过程中,既能进行泛化,也能进行记忆,这种行为的不确定性导致其在高风险场景下的应用受限。现有方法难以区分和控制这两种推理模式,无法保证模型输出的可靠性。

核心思路:论文的核心思路是基于信息瓶颈(IB)理论,将泛化定义为学习压缩的、与任务相关的表示,而将记忆定义为未能压缩。通过识别模型在推理过程中对记忆的依赖程度,并动态地引导模型的计算过程,使其更多地依赖于泛化能力,从而提高输出的可靠性。

技术框架:DMS 算法包含两个主要模块:1) 记忆依赖性识别:使用轻量级的、因果关系的线性探针,实时检测模型对记忆的依赖程度。该探针基于模型内部的激活状态,预测模型是否正在进行记忆。2) 动态激活引导:根据记忆依赖性识别的结果,动态地调整模型的激活状态,将模型的计算推向预先识别的泛化电路。这种引导机制可以看作是一种自对比解码的自适应形式。

关键创新:DMS 的关键创新在于其动态性和自适应性。它不是简单地抑制记忆,而是根据模型的当前状态,动态地调整计算过程,使其在泛化和记忆之间取得平衡。此外,DMS 使用轻量级的线性探针,避免了对模型结构的过度修改,使其易于部署和应用。

关键设计:线性探针的设计是关键。论文可能使用了某种形式的正则化来训练这个探针,以确保其能够准确地识别记忆依赖性。动态激活引导的具体实现方式未知,可能涉及到对模型中间层激活值的加权或修改。自对比解码的具体实现细节也未知,可能涉及到对模型输出概率分布的调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文实验表明,DMS 算法在推理和忠实性任务上显著提高了 LLM 的性能。具体的性能数据和提升幅度未知,但摘要强调了逻辑一致性和事实准确性的提升,表明 DMS 在提高 LLM 可靠性方面具有显著效果。

🎯 应用场景

该研究成果可应用于对可靠性要求高的自然语言处理任务,例如医疗诊断、金融分析、法律咨询等。通过提高LLM的逻辑一致性和事实准确性,可以降低模型出错的风险,增强用户对模型的信任度,并促进LLM在更多领域的应用。

📄 摘要(原文)

Large Language Models (LLMs) exhibit a troubling duality, capable of both remarkable generalization and brittle, verbatim memorization of their training data. This unpredictability undermines their reliability in high-stakes applications. In this work, we propose a unified framework to understand, identify, and control these distinct reasoning modes. First, we introduce a theoretical model based on the Information Bottleneck (IB) principle, formalizing generalization as the learning of a compressed, task-relevant representation and memorization as a failure to compress. Building on this theory, we develop Dynamic Mode Steering (DMS), a novel inference-time algorithm which comprises two components: (1) a lightweight, causally-grounded linear probe that identifies the model's instantaneous reliance on memorization, and (2) a dynamic activation steering mechanism that nudges the model's computation towards pre-identified generalization circuits. We frame DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning and faithfulness tasks demonstrate that DMS significantly improves logical consistency and factual accuracy, thereby offering a principled approach to enhancing LLM reliability.