Generalization or Memorization: Dynamic Decoding for Mode Steering

作者: Xuanming Zhang

分类: cs.CL

发布日期: 2025-10-25

💡 一句话要点

提出动态模式引导（DMS）算法，提升大语言模型推理时逻辑一致性和事实准确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 泛化能力 记忆能力 信息瓶颈 动态模式引导

📋 核心要点

大型语言模型存在泛化能力和记忆能力之间的矛盾，难以预测，影响其在高风险场景下的可靠性。
论文提出动态模式引导（DMS）算法，通过识别模型对记忆的依赖程度，引导模型计算倾向于泛化电路。
实验表明，DMS 显著提高了逻辑一致性和事实准确性，为提升 LLM 可靠性提供了一种有效方法。

📝 摘要（中文）

大型语言模型（LLMs）表现出令人不安的双重性，既能进行卓越的泛化，又能对训练数据进行脆弱的、逐字的记忆。这种不可预测性削弱了它们在高风险应用中的可靠性。在这项工作中，我们提出了一个统一的框架来理解、识别和控制这些不同的推理模式。首先，我们引入了一个基于信息瓶颈（IB）原则的理论模型，将泛化形式化为学习压缩的、与任务相关的表示，而将记忆形式化为未能压缩。在此理论的基础上，我们开发了动态模式引导（DMS），这是一种新颖的推理时算法，它包含两个组成部分：（1）一个轻量级的、因果关系的线性探针，用于识别模型对记忆的瞬时依赖性，以及（2）一个动态激活引导机制，将模型的计算推向预先识别的泛化电路。我们将DMS构建为一种自对比解码的自适应形式。在推理和忠实性任务上的实验表明，DMS显著提高了逻辑一致性和事实准确性，从而为提高LLM可靠性提供了一种原则性的方法。

🔬 方法详解

问题定义：大型语言模型（LLMs）在推理过程中，既能进行泛化，也能进行记忆，这种行为的不确定性导致其在高风险场景下的应用受限。现有方法难以区分和控制这两种推理模式，无法保证模型输出的可靠性。

核心思路：论文的核心思路是基于信息瓶颈（IB）理论，将泛化定义为学习压缩的、与任务相关的表示，而将记忆定义为未能压缩。通过识别模型在推理过程中对记忆的依赖程度，并动态地引导模型的计算过程，使其更多地依赖于泛化能力，从而提高输出的可靠性。

技术框架：DMS 算法包含两个主要模块：1) 记忆依赖性识别：使用轻量级的、因果关系的线性探针，实时检测模型对记忆的依赖程度。该探针基于模型内部的激活状态，预测模型是否正在进行记忆。2) 动态激活引导：根据记忆依赖性识别的结果，动态地调整模型的激活状态，将模型的计算推向预先识别的泛化电路。这种引导机制可以看作是一种自对比解码的自适应形式。

关键创新：DMS 的关键创新在于其动态性和自适应性。它不是简单地抑制记忆，而是根据模型的当前状态，动态地调整计算过程，使其在泛化和记忆之间取得平衡。此外，DMS 使用轻量级的线性探针，避免了对模型结构的过度修改，使其易于部署和应用。

关键设计：线性探针的设计是关键。论文可能使用了某种形式的正则化来训练这个探针，以确保其能够准确地识别记忆依赖性。动态激活引导的具体实现方式未知，可能涉及到对模型中间层激活值的加权或修改。自对比解码的具体实现细节也未知，可能涉及到对模型输出概率分布的调整。

🖼️ 关键图片

📊 实验亮点

论文实验表明，DMS 算法在推理和忠实性任务上显著提高了 LLM 的性能。具体的性能数据和提升幅度未知，但摘要强调了逻辑一致性和事实准确性的提升，表明 DMS 在提高 LLM 可靠性方面具有显著效果。

🎯 应用场景

该研究成果可应用于对可靠性要求高的自然语言处理任务，例如医疗诊断、金融分析、法律咨询等。通过提高LLM的逻辑一致性和事实准确性，可以降低模型出错的风险，增强用户对模型的信任度，并促进LLM在更多领域的应用。

📄 摘要（原文）

Large Language Models (LLMs) exhibit a troubling duality, capable of both remarkable generalization and brittle, verbatim memorization of their training data. This unpredictability undermines their reliability in high-stakes applications. In this work, we propose a unified framework to understand, identify, and control these distinct reasoning modes. First, we introduce a theoretical model based on the Information Bottleneck (IB) principle, formalizing generalization as the learning of a compressed, task-relevant representation and memorization as a failure to compress. Building on this theory, we develop Dynamic Mode Steering (DMS), a novel inference-time algorithm which comprises two components: (1) a lightweight, causally-grounded linear probe that identifies the model's instantaneous reliance on memorization, and (2) a dynamic activation steering mechanism that nudges the model's computation towards pre-identified generalization circuits. We frame DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning and faithfulness tasks demonstrate that DMS significantly improves logical consistency and factual accuracy, thereby offering a principled approach to enhancing LLM reliability.

Generalization or Memorization: Dynamic Decoding for Mode Steering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理