Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing
作者: Shiyang Zhou, Haijin Zeng, Yunfan Lu, Tong Shao, Ke Tang, Yongyong Chen, Jie Liu, Jingyong Su
分类: cs.CV
发布日期: 2025-03-20
备注: Accepted by CVPR 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出BMTNet,一种轻量级二值化Mamba-Transformer网络,用于Quad Bayer混合事件视觉传感器图像去马赛克。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Quad Bayer去马赛克 混合事件视觉传感器 二值化神经网络 Mamba Transformer 轻量级模型 边缘计算
📋 核心要点
- 现有基于学习的去马赛克方法计算复杂度高,难以在移动设备上部署。
- 提出混合二值化Mamba-Transformer架构,结合Mamba和Swin Transformer的优势,有效捕获全局和局部依赖。
- 设计二值化Mamba (Bi-Mamba),降低计算复杂度,同时通过全局信息增强上下文并减轻精度损失。
📝 摘要(中文)
Quad Bayer去马赛克是实现混合事件视觉传感器(HybridEVS)广泛应用的核心挑战。尽管现有的基于学习的方法利用长程依赖建模取得了可喜的成果,但其复杂度严重限制了在移动设备上的部署。为了解决这些限制,我们提出了一种轻量级的基于Mamba的二值化神经网络,旨在对HybridEVS RAW图像进行高效且高性能的去马赛克。首先,为了有效地捕获全局和局部依赖关系,我们引入了一种混合二值化Mamba-Transformer架构,该架构结合了Mamba和Swin Transformer架构的优势。其次,为了显著降低计算复杂度,我们提出了一种二值化Mamba (Bi-Mamba),它对所有投影进行二值化,同时保留全精度的核心选择性扫描。Bi-Mamba还结合了额外的全局视觉信息,以增强全局上下文并减轻精度损失。我们进行了定量和定性实验,证明了BMTNet在性能和计算效率方面的有效性,提供了一种适用于实际边缘设备的轻量级去马赛克解决方案。我们的代码和模型可在https://github.com/Clausy9/BMTNet获取。
🔬 方法详解
问题定义:论文旨在解决HybridEVS(混合事件视觉传感器)中Quad Bayer图像去马赛克问题。现有基于深度学习的方法虽然性能良好,但模型复杂度高,计算量大,难以在移动设备等边缘设备上部署,限制了HybridEVS的实际应用。
核心思路:论文的核心思路是设计一种轻量级的神经网络结构,在保证去马赛克性能的同时,显著降低计算复杂度,使其能够在资源受限的边缘设备上运行。通过结合Mamba和Transformer的优势,并引入二值化技术,实现了这一目标。
技术框架:BMTNet (Binarized Mamba-Transformer Network) 的整体架构是一个混合结构,包含以下主要模块:1) 输入RAW图像经过预处理;2) 使用Binarized Mamba (Bi-Mamba) 模块提取特征,Bi-Mamba是核心模块,负责长程依赖建模;3) 使用Swin Transformer模块增强局部特征表示;4) 通过上采样和后处理得到最终的去马赛克图像。
关键创新:论文最重要的技术创新点在于提出了Binarized Mamba (Bi-Mamba) 模块。与传统的Mamba结构相比,Bi-Mamba对所有投影矩阵进行二值化,极大地降低了计算复杂度。同时,为了弥补二值化带来的精度损失,Bi-Mamba引入了额外的全局视觉信息,增强全局上下文建模能力。此外,混合Mamba-Transformer架构也是一个创新点,它结合了Mamba的长程依赖建模能力和Transformer的局部特征提取能力。
关键设计:Bi-Mamba模块的关键设计包括:1) 所有投影矩阵的二值化,使用sign函数进行二值化;2) 引入全局平均池化特征作为全局视觉信息,并将其与Mamba的输出进行融合;3) 损失函数采用L1损失和感知损失的组合,以提高图像质量。
📊 实验亮点
实验结果表明,BMTNet在去马赛克性能上与现有方法相当,但计算复杂度显著降低。与全精度模型相比,Bi-Mamba的计算量减少了约50%。在公开数据集上,BMTNet取得了具有竞争力的PSNR和SSIM指标,同时保持了较低的推理时间,验证了其在边缘设备上的可行性。
🎯 应用场景
该研究成果可广泛应用于移动设备、无人机、机器人等边缘设备上的HybridEVS图像处理。轻量级的去马赛克算法能够降低设备功耗,提高处理速度,从而提升HybridEVS在智能监控、自动驾驶、增强现实等领域的应用价值。未来,该技术还可扩展到其他图像处理任务,如图像超分辨率、图像去噪等。
📄 摘要(原文)
Quad Bayer demosaicing is the central challenge for enabling the widespread application of Hybrid Event-based Vision Sensors (HybridEVS). Although existing learning-based methods that leverage long-range dependency modeling have achieved promising results, their complexity severely limits deployment on mobile devices for real-world applications. To address these limitations, we propose a lightweight Mamba-based binary neural network designed for efficient and high-performing demosaicing of HybridEVS RAW images. First, to effectively capture both global and local dependencies, we introduce a hybrid Binarized Mamba-Transformer architecture that combines the strengths of the Mamba and Swin Transformer architectures. Next, to significantly reduce computational complexity, we propose a binarized Mamba (Bi-Mamba), which binarizes all projections while retaining the core Selective Scan in full precision. Bi-Mamba also incorporates additional global visual information to enhance global context and mitigate precision loss. We conduct quantitative and qualitative experiments to demonstrate the effectiveness of BMTNet in both performance and computational efficiency, providing a lightweight demosaicing solution suited for real-world edge devices. Our codes and models are available at https://github.com/Clausy9/BMTNet.