Memory Inception: Latent-Space KV Cache Manipulation for Steering LLMs

📄 arXiv: 2605.06225v1 📥 PDF

作者: Andy Zeyi Liu, Michael Zhang, Ilana Greenberg, Adam Alnasser, Lucas Baker, John Sous

分类: cs.LG, cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出Memory Inception,通过潜空间KV缓存操控实现LLM的精准引导。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型引导 KV缓存操控 注意力机制 结构化推理 潜空间表示

📋 核心要点

  1. 现有LLM引导方法(如Prompting和Activation Steering)存在信息冗余或控制力不足的问题,限制了其在复杂任务中的应用。
  2. Memory Inception通过在LLM的特定层注入文本相关的KV缓存,实现对模型行为的精准控制,无需训练,且存储效率更高。
  3. 实验表明,Memory Inception在人格引导、可更新引导和结构化推理任务中均优于现有方法,尤其在减少KV存储方面效果显著。

📝 摘要(中文)

大型语言模型(LLM)的引导通常通过指令提示或激活引导实现。指令提示虽然控制力强,但会在每一层缓存引导token,可能导致长交互过程中的信息冗余;激活引导虽然紧凑,但通常较弱,且不支持大型结构化提醒。我们提出了Memory Inception(MI),一种无需训练的方法,通过仅在选定层插入文本派生的键值(KV)库,在潜在注意力空间中进行引导。MI将引导视为选择性的KV分配,仅在模型路由到它们的位置注入潜在槽,而不是在整个提示缓存中实现提醒内容。在匹配的人格引导任务中,MI提供了最佳的整体控制-漂移权衡,在保持与提示相当的竞争力的同时,始终优于CAA。在可更新的引导方面,MI支持对话中的行为转变,而无需重写可见的文本记录,在Qwen3上实现了最高的转变后对齐。在结构化推理方面,MI在HARDMath和PHYSICS上优于可见提示(10/12个主题×模式单元),作为可验证领域中结构化推理的代理,同时将内容匹配的KV存储减少高达118倍。这些结果表明,当引导是持久的、结构化的或难以保留在可见文本记录中时,MI是一种强大的引导方法。

🔬 方法详解

问题定义:现有的大型语言模型引导方法,如Prompting,需要在每一层都缓存引导信息,导致长文本交互时信息冗余,计算成本高昂。而Activation Steering方法虽然计算效率高,但控制能力较弱,难以处理复杂的结构化引导任务。因此,如何高效且精准地引导LLM,尤其是在需要持久化、结构化引导的场景下,是一个亟待解决的问题。

核心思路:Memory Inception的核心思路是将引导信息视为一种选择性的KV分配过程。不同于Prompting将引导信息缓存到每一层,MI只在模型需要用到这些信息时,才将相关的KV对注入到特定的层。这样既能保证引导的有效性,又能避免不必要的计算和存储开销。通过在潜在注意力空间中操作KV缓存,MI能够更精细地控制模型的行为。

技术框架:Memory Inception的技术框架主要包括以下几个步骤:1) 将引导文本编码为KV对;2) 选择需要注入KV对的LLM层;3) 将KV对注入到选定层的注意力机制中。具体来说,对于给定的输入文本和引导文本,首先使用预训练的语言模型(如BERT)将它们编码为向量表示。然后,根据任务的需求,选择LLM中需要注入KV对的层。最后,将引导文本的KV对添加到选定层的注意力机制中,从而影响模型的输出。

关键创新:Memory Inception最重要的创新点在于其选择性KV注入机制。与传统的Prompting方法相比,MI不需要在每一层都缓存引导信息,从而大大减少了计算和存储开销。与Activation Steering方法相比,MI能够更精准地控制模型的行为,因为它直接操作了注意力机制中的KV对。此外,MI是一种无需训练的方法,可以直接应用于现有的LLM,具有很强的通用性。

关键设计:在Memory Inception中,关键的设计包括:1) 如何选择需要注入KV对的层。论文中可能采用了启发式方法或基于注意力权重的选择策略。2) 如何将引导文本编码为KV对。论文中可能使用了预训练的语言模型,并对编码后的向量进行了归一化或其他处理。3) 如何将KV对注入到注意力机制中。论文中可能采用了加权平均或拼接等方法,将引导文本的KV对与原始的KV对进行融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Memory Inception在多项实验中表现出色。在人格引导任务中,MI在控制-漂移权衡方面优于现有方法。在可更新引导任务中,MI在Qwen3上实现了最高的转变后对齐。在结构化推理任务中,MI在HARDMath和PHYSICS上优于可见提示,同时将内容匹配的KV存储减少高达118倍。这些结果表明,MI是一种高效且精准的LLM引导方法。

🎯 应用场景

Memory Inception在需要持久化、结构化引导的场景下具有广泛的应用前景,例如:个性化对话系统、智能客服、教育辅导、代码生成等。通过MI,可以更有效地控制LLM的行为,使其更好地适应特定的任务需求。此外,MI还可以用于实现对话过程中的行为转变,而无需重写可见的文本记录,这对于构建更自然、更流畅的对话系统至关重要。

📄 摘要(原文)

Steering large language models (LLMs) is usually done by either instruction prompting or activation steering. Prompting often gives strong control, but caches guidance tokens at every layer and can clutter long interactions; activation steering is compact but typically weaker and does not support large structured reminders. We introduce memory inception (MI), a training-free method that steers in latent attention space by inserting text-derived key-value (KV) banks only at selected layers. Rather than materializing reminder content throughout the prompt cache, MI treats steering as selective KV allocation, injecting latent slots only where the model routes to them. On matched personality-steering tasks, MI gives the best overall control--drift trade-off, remaining competitive with prompting while consistently outperforming CAA. On updateable guidance, MI supports mid-conversation behavior shifts without rewriting the visible transcript, achieving the highest post-shift alignment on Qwen3. On structured reasoning, MI outperforms visible prompting on HARDMath and PHYSICS (10/12 subject$\times$mode cells), serving as proxies for structured reasoning in verifiable domains, while cutting content-matched KV storage by up to 118$\times$. These results position MI as a powerful steering method when guidance is persistent, structured, or expensive to keep in the visible transcript.