ReGLA: Efficient Receptive-Field Modeling with Gated Linear Attention Network

作者: Junzhou Li, Manqi Zhao, Yilin Gao, Zhiheng Yu, Yin Li, Dongsheng Jiang, Li Xiao

分类: cs.CV

发布日期: 2026-02-05

备注: 11 pages, 4 figures

💡 一句话要点

提出ReGLA：一种基于门控线性注意力网络的高效感受野建模方法，适用于高分辨率图像。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 线性注意力 高分辨率图像 轻量级模型 卷积神经网络 门控机制 多教师蒸馏 高效计算 混合网络

📋 核心要点

Transformer在高分辨率图像上计算成本高，轻量级模型难以兼顾精度和速度。
ReGLA结合高效卷积提取局部特征，并使用ReLU门控线性注意力进行全局建模。
ReGLA在ImageNet上达到80.85%的Top-1精度，并在COCO和ADE20K上超越iFormer。

📝 摘要（中文）

本文提出ReGLA，一系列轻量级混合网络，旨在平衡高分辨率图像上的精度和延迟。该网络结合了高效卷积用于局部特征提取，以及基于ReLU的门控线性注意力用于全局建模。ReGLA包含三个关键创新：高效大感受野（ELRF）模块，用于增强卷积效率并保持大的感受野；ReLU门控调制注意力（RGMA）模块，用于保持线性复杂度的同时增强局部特征表示；以及多教师蒸馏策略，以提升下游任务的性能。大量实验验证了ReGLA的优越性；特别是ReGLA-M在ImageNet-1K（224px）上实现了80.85%的Top-1准确率，在512px分辨率下仅有4.98ms的延迟。此外，ReGLA在下游任务中优于同等规模的iFormer模型，在COCO目标检测上实现了3.1%的AP增益，在ADE20K语义分割上实现了3.6%的mIoU增益，使其成为高分辨率视觉应用的最先进解决方案。

🔬 方法详解

问题定义：现有基于Transformer的模型在高分辨率图像处理中面临计算复杂度高的挑战，尤其是在轻量级模型中，如何在保证精度的同时降低延迟是一个关键问题。传统的Transformer模型通常具有平方级的复杂度，这限制了它们在高分辨率图像上的应用。

核心思路：ReGLA的核心思路是结合卷积神经网络（CNN）和线性注意力机制的优势。利用CNN高效提取局部特征，并使用线性注意力机制进行全局建模，从而在降低计算复杂度的同时，保持模型的表达能力。通过门控机制进一步增强特征表示能力。

技术框架：ReGLA是一种混合网络，其整体架构包含以下几个主要模块： 1. Efficient Large Receptive Field (ELRF)模块：用于增强卷积的效率，同时保持较大的感受野。 2. ReLU Gated Modulated Attention (RGMA)模块：用于在保持线性复杂度的同时，增强局部特征表示。 3. 多教师蒸馏策略：用于提升模型在下游任务中的性能。整个网络通过堆叠这些模块，逐步提取图像特征，并最终用于分类、检测或分割等任务。

关键创新：ReGLA的关键创新在于ELRF和RGMA模块的设计。ELRF模块通过高效的卷积操作，在降低计算量的同时，保持了较大的感受野，这使得模型能够更好地捕捉图像中的全局信息。RGMA模块则通过ReLU门控机制，增强了局部特征的表示能力，并且保持了线性复杂度，避免了传统Transformer的平方级复杂度问题。

关键设计： 1. ELRF模块：具体实现细节未知，但其目标是在减少参数量和计算量的同时，保持大的感受野。 2. RGMA模块：使用ReLU作为门控函数，调制注意力权重，增强局部特征的表示能力。具体调制方式未知。 3. 多教师蒸馏：使用多个预训练好的模型作为教师，指导ReGLA模型的训练，从而提升模型在下游任务中的性能。具体蒸馏策略未知。

🖼️ 关键图片

📊 实验亮点

ReGLA-M在ImageNet-1K数据集上达到了80.85%的Top-1准确率，同时在512px分辨率下仅有4.98ms的延迟。在COCO目标检测任务中，ReGLA相比于同等规模的iFormer模型，实现了3.1%的AP提升。在ADE20K语义分割任务中，ReGLA实现了3.6%的mIoU提升。这些结果表明ReGLA在精度和效率上都具有显著优势。

🎯 应用场景

ReGLA适用于需要处理高分辨率图像的视觉应用，例如自动驾驶、医学图像分析、遥感图像处理和高清视频监控等。其高效的计算性能和良好的精度使其能够在资源受限的设备上部署，并为这些领域提供更准确、更快速的图像分析能力，具有广阔的应用前景。

📄 摘要（原文）

Balancing accuracy and latency on high-resolution images is a critical challenge for lightweight models, particularly for Transformer-based architectures that often suffer from excessive latency. To address this issue, we introduce \textbf{ReGLA}, a series of lightweight hybrid networks, which integrates efficient convolutions for local feature extraction with ReLU-based gated linear attention for global modeling. The design incorporates three key innovations: the Efficient Large Receptive Field (ELRF) module for enhancing convolutional efficiency while preserving a large receptive field; the ReLU Gated Modulated Attention (RGMA) module for maintaining linear complexity while enhancing local feature representation; and a multi-teacher distillation strategy to boost performance on downstream tasks. Extensive experiments validate the superiority of ReGLA; particularly the ReGLA-M achieves \textbf{80.85\%} Top-1 accuracy on ImageNet-1K at $224px$, with only \textbf{4.98 ms} latency at $512px$. Furthermore, ReGLA outperforms similarly scaled iFormer models in downstream tasks, achieving gains of \textbf{3.1\%} AP on COCO object detection and \textbf{3.6\%} mIoU on ADE20K semantic segmentation, establishing it as a state-of-the-art solution for high-resolution visual applications.

ReGLA: Efficient Receptive-Field Modeling with Gated Linear Attention Network

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理