Echo: KV-Cache-Free Associative Recall with Spectral Koopman Operators

作者: Anupama Sridhar, Alexander Johansen

分类: cs.LG

发布日期: 2026-05-07

💡 一句话要点

提出Echo架构：利用谱Koopman算子实现无KV缓存的关联记忆检索

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 状态空间模型 长上下文推理 Koopman算子 关联记忆检索 模型压缩 高效推理

📋 核心要点

Transformer的KV缓存随序列长度线性增长，导致长上下文推理面临严重的内存瓶颈，而现有SSM模型在长距离关联检索任务中存在严重的精度衰减问题。
Echo引入谱Koopman注意力（SKA），通过闭式动力学算子将键值历史拟合为谱线性系统，利用恒定内存的流式状态实现高效的关联记忆检索。
实验表明，Echo在多查询关联检索中达到100%准确率，并在长文本检索及多跳推理任务中全面超越纯SSM及混合架构，且推理内存保持恒定。

📝 摘要（中文）

长思维链推理和智能体工具调用产生的序列长度可达数万token，但Transformer的KV缓存随序列长度线性增长，导致硬件内存瓶颈。状态空间模型（SSM）虽提供恒定内存的递归机制，却面临“记忆悬崖”问题，即当事实与查询之间的距离超过递归状态的有效视界时，检索准确率会急剧下降。本文提出了Echo，一种基于谱Koopman注意力（SKA）的无KV缓存关联检索架构。SKA作为注意力层的直接替代品，通过闭式动力学算子增强SSM模块，利用$O(r^2)$的流式状态存储充分统计量，无需KV缓存。在多查询关联检索基准测试中，Echo在50M参数规模下实现了100%的检索准确率，显著优于纯SSM及SSM+注意力混合模型，并在长文本检索、工具调用等任务中表现出卓越的性能。

🔬 方法详解

问题定义：论文旨在解决长上下文场景下，Transformer因KV缓存带来的内存爆炸问题，以及现有SSM模型在处理长距离关联检索时因“记忆视界”限制导致的准确率崩塌问题。

核心思路：Echo的核心思想是利用Koopman算子理论，将非线性序列建模转化为线性动力学系统的谱分析。通过将键值历史拟合为谱线性系统，将检索过程转化为对历史状态的闭式求解，从而摆脱对显式KV缓存的依赖。

技术框架：Echo架构由SSM模块与SKA模块集成。SKA模块通过核岭回归（Kernel Ridge Regression）将键值历史映射到低维投影空间，并利用学习到的幂迭代滤波器（Power-iterated filter）进行信息提取，整个过程仅需维护$O(r^2)$的流式状态。

关键创新：最重要的创新在于引入了谱Koopman注意力（SKA），它通过闭式动力学算子替代了传统的注意力机制，实现了在恒定内存开销下对长距离依赖的精确捕捉，本质上将检索问题从“存储历史”转变为“拟合动力学系统”。

关键设计：关键技术细节包括采用低秩投影（Rank $r$）来压缩状态空间，利用核岭回归进行在线参数更新，以及通过幂迭代滤波器实现对特定信息的精准检索，确保了模型在处理长序列时的稳定性和高效性。

🖼️ 关键图片

📊 实验亮点

在Multi-Query Associative Recall基准测试中，纯Mamba-2模型准确率仅为3%左右，而Echo在50M参数规模下实现了100%的检索准确率，即使在包含4,096个token干扰项和32个KV对的极端配置下依然保持稳定。在“大海捞针”及多跳检索等任务中，Echo均优于现有的SSM与注意力混合模型。

🎯 应用场景

该技术适用于需要处理超长上下文的AI应用，如长文档分析、复杂代码库理解、长思维链推理及多步工具调用智能体。其恒定内存特性使其在边缘设备、移动端及大规模推理服务中具有极高的部署价值，能显著降低长文本任务的算力与内存成本。

📄 摘要（原文）

Long chain-of-thought reasoning and agentic tool-calling produce traces spanning tens of thousands of tokens, yet Transformer KV caches grow linearly with sequence length, creating a memory bottleneck on commodity hardware. State-space models offer constant-memory recurrence but suffer a memory cliff: retrieval accuracy collapses once the gap between a stored fact and its query exceeds the effective horizon of the recurrent state. We introduce Echo, a KV-cache-free associative recall architecture built around Spectral Koopman Attention (SKA); a drop-in replacement for attention layers that augments SSM blocks with a closed-form dynamical operator whose sufficient statistics are accumulated in constant memory with no KV cache. Echo fits a spectral linear system to the key and value history via kernel ridge regression and retrieves through a learned power-iterated filter, all from $O(r^{2})$ streaming state where $r$ is a small projection rank. On the Multi-Query Associative Recall benchmark, a pure Mamba-2 SSM fails to exceed chance accuracy (${\sim}3\%$) across all gap lengths and KV-pair counts, while at the 50M parameter scale SKA-augmented models achieve $100\%$ retrieval accuracy on every configuration tested, including distractor gaps of $4{,}096$ tokens with $32$ KV pairs. Across five additional transfer benchmarks including needle-in-a-haystack, tool-trace, and multi-hop retrieval, SKA consistently outperforms both pure SSM and SSM+Attention hybrids while maintaining constant inference memory. Ablations confirm that the spectral operator, not the prefix masking strategy, drives the retrieval gain.

Echo: KV-Cache-Free Associative Recall with Spectral Koopman Operators

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理