EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction
作者: Wei Yu, Yunhang Qian
分类: cs.CV, cs.AI
发布日期: 2026-05-08
🔗 代码/项目: GITHUB
💡 一句话要点
提出EmambaIR,一种高效视觉状态空间模型,用于事件引导的图像重建。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 事件相机 图像重建 状态空间模型 稀疏注意力 跨模态融合 运动去模糊 HDR增强
📋 核心要点
- 现有方法依赖CNN或ViT进行事件引导图像重建,但CNN缺乏全局关联性,ViT计算复杂度高。
- EmambaIR利用跨模态Top-k稀疏注意力模块(TSAM)和门控状态空间模块(GSSM)实现高效全局上下文建模。
- 实验表明,EmambaIR在多个图像重建任务上超越SOTA方法,并显著降低内存和计算成本。
📝 摘要(中文)
本文提出EmambaIR,一种高效的视觉状态空间模型,用于利用空间稀疏和时间连续的事件流进行图像重建。现有基于事件的图像重建方法主要依赖卷积神经网络(CNN)和视觉Transformer(ViT)来处理互补的事件信息。然而,这些架构面临根本性的限制:CNNs通常无法捕获全局特征相关性,而ViTs会产生二次计算复杂度(例如,$O(n^2)$),阻碍了它们在高分辨率场景中的应用。为了解决这些瓶颈,我们的框架引入了两个关键组件:跨模态Top-k稀疏注意力模块(TSAM)和门控状态空间模块(GSSM)。TSAM有效地执行像素级top-k稀疏注意力来指导跨模态交互,产生丰富而稀疏的融合特征。随后,GSSM利用非线性门控单元来增强 vanilla 线性复杂度($O(n)$)SSM 的时间表示,有效地捕获全局上下文依赖关系,而没有典型的计算开销。在跨越三个不同的图像重建任务(运动去模糊、去雨和高动态范围 (HDR) 增强)的六个数据集上的大量实验表明,EmambaIR 显着优于最先进的方法,同时显着降低了内存消耗和计算成本。源代码和数据可在https://github.com/YunhangWickert/EmambaIR公开获取。
🔬 方法详解
问题定义:论文旨在解决基于事件相机数据的图像重建问题。现有方法,如基于CNN和ViT的方法,分别存在感受野有限和计算复杂度高的缺陷,难以在全局范围内有效利用事件数据中的时空信息,尤其是在高分辨率场景下表现不佳。
核心思路:论文的核心在于利用状态空间模型(SSM)的线性复杂度优势,并结合稀疏注意力机制,从而在保证计算效率的同时,有效捕获事件数据中的全局上下文依赖关系。通过跨模态融合事件数据和图像数据,实现更精准的图像重建。
技术框架:EmambaIR的整体框架包含两个主要模块:跨模态Top-k稀疏注意力模块(TSAM)和门控状态空间模块(GSSM)。首先,TSAM利用像素级的top-k稀疏注意力机制,选择性地融合事件数据和图像数据的特征,生成稀疏但信息丰富的融合特征。然后,GSSM利用门控机制增强传统SSM的表达能力,从而有效地捕获时序依赖关系。最终,重建图像从GSSM的输出中生成。
关键创新:EmambaIR的关键创新在于:1)提出了一种基于Top-k稀疏注意力的跨模态融合方法,在降低计算量的同时,保证了特征融合的质量;2)引入门控机制增强了状态空间模型对时间信息的建模能力,使其能够有效捕获全局上下文依赖关系。这些创新使得EmambaIR在计算效率和重建质量上都优于现有方法。
关键设计:TSAM模块中,Top-k注意力的k值是一个关键参数,需要根据数据集和任务进行调整。GSSM模块中,门控单元的非线性激活函数影响着模型对时间信息的建模能力,可以选择ReLU、Sigmoid等不同的激活函数。损失函数方面,可以使用L1损失或L2损失来衡量重建图像与真实图像之间的差异。网络结构的深度和宽度需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
EmambaIR在运动去模糊、去雨和HDR增强等三个图像重建任务的六个数据集上进行了广泛的实验。结果表明,EmambaIR在PSNR和SSIM等指标上显著优于最先进的方法,例如,在运动去模糊任务上,相比于SOTA方法提升了1-2dB。同时,EmambaIR的内存消耗和计算成本也显著降低,使其能够应用于高分辨率图像的重建任务。
🎯 应用场景
EmambaIR在机器人视觉、自动驾驶、安防监控等领域具有广泛的应用前景。例如,在自动驾驶中,可以利用事件相机提供的高速和高动态范围信息,结合EmambaIR进行图像重建,从而提高环境感知能力。在安防监控中,可以利用事件相机在弱光环境下的优势,结合EmambaIR进行清晰的图像重建,提升监控效果。此外,该方法还可以应用于医学成像、工业检测等领域。
📄 摘要(原文)
Recent event-based image reconstruction methods predominantly rely on Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) to process complementary event information. However, these architectures face fundamental limitations: CNNs often fail to capture global feature correlations, whereas ViTs incur quadratic computational complexity (e.g., $O(n^2)$), hindering their application in high-resolution scenarios. To address these bottlenecks, we introduce EmambaIR, an Efficient visual State Space Model designed for image reconstruction using spatially sparse and temporally continuous event streams. Our framework introduces two key components: the cross-modal Top-k Sparse Attention Module (TSAM) and the Gated State-Space Module (GSSM). TSAM efficiently performs pixel-level top-k sparse attention to guide cross-modal interactions, yielding rich yet sparse fusion features. Subsequently, GSSM utilizes a nonlinear gated unit to enhance the temporal representation of vanilla linear-complexity ($O(n)$) SSMs, effectively capturing global contextual dependencies without the typical computational overhead. Extensive experiments on six datasets across three diverse image reconstruction tasks - motion deblurring, deraining, and High Dynamic Range (HDR) enhancement - demonstrate that EmambaIR significantly outperforms state-of-the-art methods while offering substantial reductions in memory consumption and computational cost. The source code and data are publicly available at: https://github.com/YunhangWickert/EmambaIR