Memory by Design: Probabilistic Sequence Layers

作者: Matthew Dowling, Hyungju Jeon, Cristina Savin, Il Memming Park

分类: stat.ML, cs.LG

发布日期: 2026-05-29

备注: Preprint, in submission

💡 一句话要点

提出设计模型框架，通过显式记忆假设推导高效循环序列映射。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 循环序列模型 贝叶斯滤波 记忆网络 长上下文检索 不确定性建模

📋 核心要点

现有循环序列模型缺乏对记忆机制的显式建模，限制了其效率和可解释性。
论文提出设计模型框架，通过贝叶斯滤波将信息写入记忆，并利用协方差跟踪不确定性，指导记忆更新。
实验表明，该方法在长上下文检索和关联回忆等任务中表现出更强的鲁棒性，并能提升现有模型的性能。

📝 摘要（中文）

本文提出了一种设计模型框架，该框架通过对记忆的显式假设来推导高效的循环序列映射。设计模型通过精确的贝叶斯滤波将证据写入记忆；一个依赖于查询的读出操作产生一个预测分布，其均值作为层的输出。在线性-高斯实例化中，贝叶斯层传播均值和协方差：协方差跟踪存储关联的不确定性，引导写入朝向不确定的方向，随着证据的积累衰减增益，并保留置信的记忆。该框架统一了几个亚二次复杂度循环。线性注意力、GLA和Mamba-2/SSD是同一设计模型下的精确滤波器，而DeltaNet和相关的Delta-rule模型则是在另一个模型下协方差重置的简化版本。恢复协方差可以得到检索动态的闭式预测（经验证），并在受控的冲突研究、学习的关联回忆和动物学MQAR基准测试中提高了超出训练范围的鲁棒性；将贝叶斯层提炼到预训练的3.4亿参数的Gated DeltaNet中，提高了在匹配计算下的RULER长上下文检索性能。

🔬 方法详解

问题定义：现有循环序列模型在处理长序列时面临效率和鲁棒性挑战。传统的RNN及其变体难以捕捉长期依赖关系，并且容易受到梯度消失或爆炸的影响。注意力机制虽然能够缓解这些问题，但计算复杂度较高。此外，现有模型缺乏对记忆过程的显式建模，导致其行为难以解释和控制。

核心思路：论文的核心思路是将循环序列建模视为一个贝叶斯滤波过程，通过显式地对记忆进行建模，并利用贝叶斯推理来更新和检索记忆。这种方法能够有效地跟踪记忆中的不确定性，并根据不确定性来指导记忆的更新，从而提高模型的效率和鲁棒性。

技术框架：该方法的核心是设计模型框架，它包含两个主要模块：写入模块和读出模块。写入模块通过贝叶斯滤波将输入序列的信息写入记忆，并更新记忆的状态和不确定性。读出模块根据查询从记忆中检索相关信息，并生成预测分布。在线性-高斯实例化中，记忆的状态由均值和协方差表示，协方差用于跟踪记忆的不确定性。

关键创新：该方法最重要的创新点在于将循环序列建模与贝叶斯滤波联系起来，并利用协方差来跟踪记忆的不确定性。这种方法能够显式地建模记忆过程，并根据不确定性来指导记忆的更新，从而提高模型的效率和鲁棒性。此外，该框架还统一了多种亚二次复杂度循环模型，如线性注意力、GLA和Mamba-2/SSD。

关键设计：在线性-高斯实例化中，记忆的状态由均值和协方差表示。写入模块使用卡尔曼滤波来更新均值和协方差。读出模块根据查询从记忆中检索相关信息，并生成预测分布。损失函数可以使用负对数似然损失或交叉熵损失。关键参数包括记忆的大小、滤波器的参数和读出模块的参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在长上下文检索、关联回忆和动物学MQAR基准测试中表现出更强的鲁棒性。例如，将贝叶斯层提炼到预训练的3.4亿参数的Gated DeltaNet中，提高了在匹配计算下的RULER长上下文检索性能。此外，该方法还能够预测检索动态，并验证了其理论分析的有效性。

🎯 应用场景

该研究成果可应用于各种需要处理长序列数据的场景，如自然语言处理、语音识别、视频分析和时间序列预测。例如，可以用于改进机器翻译、文本摘要、对话系统和推荐系统等任务的性能。此外，该方法还可以用于开发更高效和鲁棒的循环神经网络，从而推动人工智能技术的发展。

📄 摘要（原文）

We introduce the design-model framework: a way to derive efficient recurrent sequence maps from explicit assumptions about memory. A design model writes evidence into memory by exact Bayesian filtering; a query-dependent readout produces a predictive distribution whose mean is the layer output. In our linear-Gaussian instantiation, the \emph{Bayesian Layer} propagates both a mean and a covariance: the covariance tracks uncertainty over stored associations, steering writes toward uncertain directions, attenuating gains as evidence accumulates, and preserving confident memories. The same framework unifies several sub-quadratic recurrences. Linear attention, GLA, and Mamba-2/SSD are exact filters under one design model, whereas DeltaNet and related Delta-rule models arise as covariance-reset reductions under another. Restoring the covariance yields closed-form predictions for retrieval dynamics, verified empirically, and improves robustness beyond the training regime across controlled collision studies, learned associative recall, and the Zoology MQAR benchmark; distilling Bayesian Layers into a pretrained 340M Gated DeltaNet improves RULER long-context retrieval at matched compute.

Memory by Design: Probabilistic Sequence Layers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理