MirrorLA: Reflecting Feature Map for Vision Linear Attention

作者: Weikang Meng, Liangyu Huo, Yadan Luo, Yaowei Wang, Yingjian Li, Zheng Zhang

分类: cs.LG

发布日期: 2026-02-04

💡 一句话要点

MirrorLA通过反射特征图解决线性注意力性能下降问题，提升表征能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 线性注意力 Transformer Householder反射 特征重定向 表征学习

📋 核心要点

线性注意力虽然降低了计算复杂度，但由于核特征图的非负约束，导致信息损失，性能下降。
MirrorLA通过可学习的Householder反射，将特征几何旋转到非负正交象限，最大化信息保留。
MirrorLA在标准数据集上取得了SOTA性能，验证了线性效率与表征能力可以兼得。

📝 摘要（中文）

线性注意力机制能够显著降低Transformer的计算复杂度，从平方级降至线性级，但其性能始终落后于基于softmax的注意力机制。本文指出，性能下降的根本原因是核特征图的非负性约束：诸如ReLU之类的标准投影充当“被动截断”算子，不加区分地丢弃了负域中的语义信息。为此，本文提出了MirrorLA，一个用主动重定向代替被动截断的几何框架。通过利用可学习的Householder反射，MirrorLA将特征几何旋转到非负正交象限，以最大程度地保留信息。该方法通过一个有凝聚力的多尺度设计来恢复表征密度：首先，通过分块等距变换优化局部可区分性；其次，使用方差感知调制来稳定长上下文动态，从而使激活多样化；最后，通过跨头反射整合分散的子空间，以诱导全局协方差混合。MirrorLA在标准基准测试中实现了最先进的性能，证明了可以在不牺牲表征保真度的情况下实现严格的线性效率。

🔬 方法详解

问题定义：线性注意力旨在降低Transformer的计算复杂度，但现有方法（如使用ReLU激活）为了满足核方法的非负性要求，会截断负值区域的信息，导致表征能力下降，性能不如softmax注意力。现有方法的痛点在于如何在保证线性复杂度的同时，避免信息损失。

核心思路：MirrorLA的核心思路是通过主动重定向而非被动截断来处理特征图。具体来说，它利用可学习的Householder反射，将特征空间旋转到非负象限，从而保留负值区域的信息。这样做的目的是在满足非负性约束的同时，最大程度地保留原始特征的语义信息，提升模型的表征能力。通过几何变换，避免了简单截断带来的信息损失。

技术框架：MirrorLA的整体框架包含三个主要模块：1) 分块等距变换：通过分块的Householder反射优化局部可区分性。2) 方差感知调制：稳定长上下文动态，增加激活的多样性。3) 跨头反射：整合分散的子空间，诱导全局协方差混合。这三个模块协同工作，从局部到全局提升特征的表征能力。

关键创新：MirrorLA的关键创新在于使用可学习的Householder反射来主动重定向特征图，而不是像ReLU那样被动地截断负值。这种方法能够更有效地保留原始特征的语义信息，从而提升模型的表征能力。与现有方法的本质区别在于，MirrorLA不是简单地丢弃负值信息，而是通过几何变换将其重新利用。

关键设计：MirrorLA的关键设计包括：1) 使用Householder反射作为旋转变换，保证变换的正交性。2) 设计了多尺度结构，从局部到全局提升表征能力。3) 引入方差感知调制，稳定训练过程，增加激活的多样性。具体的参数设置和网络结构细节需要在论文中进一步查找。

🖼️ 关键图片

📊 实验亮点

MirrorLA在多个标准基准测试中取得了SOTA性能，证明了其有效性。具体的性能数据和对比基线需要在论文中查找。该方法的主要优势在于能够在保证线性复杂度的同时，显著提升模型的表征能力，缩小了线性注意力与softmax注意力之间的性能差距。

🎯 应用场景

MirrorLA具有广泛的应用前景，可以应用于各种需要高效处理长序列数据的场景，例如自然语言处理中的机器翻译、文本摘要，计算机视觉中的视频理解、图像生成等。该研究的实际价值在于提升了线性注意力机制的性能，使其能够在资源受限的环境下实现更好的效果。未来，MirrorLA可以进一步扩展到其他领域，例如语音识别、推荐系统等。

📄 摘要（原文）

Linear attention significantly reduces the computational complexity of Transformers from quadratic to linear, yet it consistently lags behind softmax-based attention in performance. We identify the root cause of this degradation as the non-negativity constraint imposed on kernel feature maps: standard projections like ReLU act as "passive truncation" operators, indiscriminately discarding semantic information residing in the negative domain. We propose MirrorLA, a geometric framework that substitutes passive truncation with active reorientation. By leveraging learnable Householder reflections, MirrorLA rotates the feature geometry into the non-negative orthant to maximize information retention. Our approach restores representational density through a cohesive, multi-scale design: it first optimizes local discriminability via block-wise isometries, stabilizes long-context dynamics using variance-aware modulation to diversify activations, and finally, integrates dispersed subspaces via cross-head reflections to induce global covariance mixing. MirrorLA achieves state-of-the-art performance across standard benchmarks, demonstrating that strictly linear efficiency can be achieved without compromising representational fidelity.

MirrorLA: Reflecting Feature Map for Vision Linear Attention

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理