MirrorLA: Reflecting Feature Map for Vision Linear Attention

📄 arXiv: 2602.04346v1 📥 PDF

作者: Weikang Meng, Liangyu Huo, Yadan Luo, Yaowei Wang, Yingjian Li, Zheng Zhang

分类: cs.LG

发布日期: 2026-02-04


💡 一句话要点

MirrorLA通过反射特征图解决线性注意力性能下降问题,提升表征能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 线性注意力 Transformer Householder反射 特征重定向 表征学习

📋 核心要点

  1. 线性注意力虽然降低了计算复杂度,但由于核特征图的非负约束,导致信息损失,性能下降。
  2. MirrorLA通过可学习的Householder反射,将特征几何旋转到非负正交象限,最大化信息保留。
  3. MirrorLA在标准数据集上取得了SOTA性能,验证了线性效率与表征能力可以兼得。

📝 摘要(中文)

线性注意力机制能够显著降低Transformer的计算复杂度,从平方级降至线性级,但其性能始终落后于基于softmax的注意力机制。本文指出,性能下降的根本原因是核特征图的非负性约束:诸如ReLU之类的标准投影充当“被动截断”算子,不加区分地丢弃了负域中的语义信息。为此,本文提出了MirrorLA,一个用主动重定向代替被动截断的几何框架。通过利用可学习的Householder反射,MirrorLA将特征几何旋转到非负正交象限,以最大程度地保留信息。该方法通过一个有凝聚力的多尺度设计来恢复表征密度:首先,通过分块等距变换优化局部可区分性;其次,使用方差感知调制来稳定长上下文动态,从而使激活多样化;最后,通过跨头反射整合分散的子空间,以诱导全局协方差混合。MirrorLA在标准基准测试中实现了最先进的性能,证明了可以在不牺牲表征保真度的情况下实现严格的线性效率。

🔬 方法详解

问题定义:线性注意力旨在降低Transformer的计算复杂度,但现有方法(如使用ReLU激活)为了满足核方法的非负性要求,会截断负值区域的信息,导致表征能力下降,性能不如softmax注意力。现有方法的痛点在于如何在保证线性复杂度的同时,避免信息损失。

核心思路:MirrorLA的核心思路是通过主动重定向而非被动截断来处理特征图。具体来说,它利用可学习的Householder反射,将特征空间旋转到非负象限,从而保留负值区域的信息。这样做的目的是在满足非负性约束的同时,最大程度地保留原始特征的语义信息,提升模型的表征能力。通过几何变换,避免了简单截断带来的信息损失。

技术框架:MirrorLA的整体框架包含三个主要模块:1) 分块等距变换:通过分块的Householder反射优化局部可区分性。2) 方差感知调制:稳定长上下文动态,增加激活的多样性。3) 跨头反射:整合分散的子空间,诱导全局协方差混合。这三个模块协同工作,从局部到全局提升特征的表征能力。

关键创新:MirrorLA的关键创新在于使用可学习的Householder反射来主动重定向特征图,而不是像ReLU那样被动地截断负值。这种方法能够更有效地保留原始特征的语义信息,从而提升模型的表征能力。与现有方法的本质区别在于,MirrorLA不是简单地丢弃负值信息,而是通过几何变换将其重新利用。

关键设计:MirrorLA的关键设计包括:1) 使用Householder反射作为旋转变换,保证变换的正交性。2) 设计了多尺度结构,从局部到全局提升表征能力。3) 引入方差感知调制,稳定训练过程,增加激活的多样性。具体的参数设置和网络结构细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MirrorLA在多个标准基准测试中取得了SOTA性能,证明了其有效性。具体的性能数据和对比基线需要在论文中查找。该方法的主要优势在于能够在保证线性复杂度的同时,显著提升模型的表征能力,缩小了线性注意力与softmax注意力之间的性能差距。

🎯 应用场景

MirrorLA具有广泛的应用前景,可以应用于各种需要高效处理长序列数据的场景,例如自然语言处理中的机器翻译、文本摘要,计算机视觉中的视频理解、图像生成等。该研究的实际价值在于提升了线性注意力机制的性能,使其能够在资源受限的环境下实现更好的效果。未来,MirrorLA可以进一步扩展到其他领域,例如语音识别、推荐系统等。

📄 摘要(原文)

Linear attention significantly reduces the computational complexity of Transformers from quadratic to linear, yet it consistently lags behind softmax-based attention in performance. We identify the root cause of this degradation as the non-negativity constraint imposed on kernel feature maps: standard projections like ReLU act as "passive truncation" operators, indiscriminately discarding semantic information residing in the negative domain. We propose MirrorLA, a geometric framework that substitutes passive truncation with active reorientation. By leveraging learnable Householder reflections, MirrorLA rotates the feature geometry into the non-negative orthant to maximize information retention. Our approach restores representational density through a cohesive, multi-scale design: it first optimizes local discriminability via block-wise isometries, stabilizes long-context dynamics using variance-aware modulation to diversify activations, and finally, integrates dispersed subspaces via cross-head reflections to induce global covariance mixing. MirrorLA achieves state-of-the-art performance across standard benchmarks, demonstrating that strictly linear efficiency can be achieved without compromising representational fidelity.