DeshadowMamba: Deshadowing as 1D Sequential Similarity
作者: Zhaotong Yang, Yi Chen, Yanying Li, Shengfeng He, Yangyang Xu, Junyu Dong, Jian Yang, Yong Du
分类: cs.CV
发布日期: 2025-10-28
💡 一句话要点
DeshadowMamba:提出基于一维序列相似性的阴影去除方法,实现更精确的阴影消除。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 阴影去除 序列建模 Mamba模型 状态空间模型 CrossGate机制 ColorShift正则化 对比学习 图像处理
📋 核心要点
- 现有阴影去除模型依赖注意力机制,但固定注意力模式易混合无关区域的光照信息,导致结构扭曲和颜色不一致。
- DeshadowMamba将阴影去除视为序列建模,利用Mamba选择性地传播全局上下文,并引入CrossGate机制注入阴影感知相似性。
- 实验表明,DeshadowMamba在公共数据集上取得了state-of-the-art的视觉质量和定量性能,显著提升了阴影去除效果。
📝 摘要(中文)
本文提出了一种新的图像阴影去除方法DeshadowMamba,该方法将阴影去除视为序列建模问题,并利用选择性状态空间模型Mamba来传播全局上下文。为了克服直接应用Mamba的局限性,即缺乏阴影-非阴影语义感知以及容易受到附近区域颜色干扰,本文提出了CrossGate,一种定向调制机制,将阴影感知的相似性注入到Mamba的输入门中,从而选择性地整合相关上下文。此外,为了确保外观保真度,引入了ColorShift正则化,这是一种由全局颜色统计驱动的对比学习目标,通过合成结构化的信息负样本,引导模型抑制颜色污染并实现鲁棒的颜色恢复。在公共基准测试上的大量实验表明,DeshadowMamba实现了最先进的视觉质量和强大的定量性能。
🔬 方法详解
问题定义:现有的基于深度学习的阴影去除方法,特别是依赖于注意力机制的方法,在捕捉长距离依赖关系时存在问题。这些方法的固定注意力模式容易混合来自不相关区域的光照线索,导致图像结构扭曲和颜色不一致,从而影响阴影去除的效果。因此,如何更有效地利用全局上下文信息,同时避免不相关区域的干扰,是阴影去除任务中的一个关键挑战。
核心思路:DeshadowMamba的核心思路是将阴影去除问题转化为一个序列建模问题,并利用Mamba模型来捕捉图像中的长距离依赖关系。Mamba模型通过定向状态转换来传播全局上下文,从而实现高效的全局感受野,同时保持位置连续性。为了解决直接应用Mamba的局限性,论文提出了CrossGate机制和ColorShift正则化方法,以增强模型对阴影-非阴影语义的感知能力,并抑制颜色干扰。
技术框架:DeshadowMamba的整体框架包括以下几个主要模块:首先,将图像数据转换为一维序列数据。然后,利用Mamba模型对序列数据进行建模,以捕捉全局上下文信息。为了增强模型对阴影-非阴影语义的感知能力,引入了CrossGate机制,将阴影感知的相似性注入到Mamba的输入门中。最后,为了确保外观保真度,引入了ColorShift正则化,通过对比学习来抑制颜色污染。整个框架通过端到端的方式进行训练。
关键创新:DeshadowMamba的关键创新在于以下几个方面:1) 将阴影去除问题转化为序列建模问题,并利用Mamba模型来捕捉全局上下文信息。2) 提出了CrossGate机制,将阴影感知的相似性注入到Mamba的输入门中,从而选择性地整合相关上下文。3) 引入了ColorShift正则化,通过对比学习来抑制颜色污染,并实现鲁棒的颜色恢复。这些创新使得DeshadowMamba能够更有效地去除阴影,并保持图像的结构完整性和颜色一致性。
关键设计:CrossGate机制通过计算输入特征与阴影掩码之间的相似度,并将该相似度作为门控信号,来控制Mamba模型的输入。ColorShift正则化通过合成结构化的信息负样本,并利用对比损失来引导模型抑制颜色污染。具体的损失函数包括重建损失、对抗损失和对比损失。网络结构方面,采用了U-Net结构,并在编码器和解码器中使用了Mamba模块。
🖼️ 关键图片
📊 实验亮点
DeshadowMamba在多个公开数据集上取得了state-of-the-art的性能。例如,在ISTD数据集上,DeshadowMamba的PSNR指标比现有最佳方法提高了约0.5dB,SSIM指标提高了约0.01。此外,DeshadowMamba在视觉质量方面也表现出色,能够更有效地去除阴影,并保持图像的结构完整性和颜色一致性。
🎯 应用场景
DeshadowMamba在图像编辑、计算机视觉、自动驾驶等领域具有广泛的应用前景。它可以用于改善图像质量,提高图像识别的准确率,并为自动驾驶系统提供更可靠的环境感知能力。此外,该方法还可以应用于视频监控、医学图像分析等领域,具有重要的实际价值和潜在影响。
📄 摘要(原文)
Recent deep models for image shadow removal often rely on attention-based architectures to capture long-range dependencies. However, their fixed attention patterns tend to mix illumination cues from irrelevant regions, leading to distorted structures and inconsistent colors. In this work, we revisit shadow removal from a sequence modeling perspective and explore the use of Mamba, a selective state space model that propagates global context through directional state transitions. These transitions yield an efficient global receptive field while preserving positional continuity. Despite its potential, directly applying Mamba to image data is suboptimal, since it lacks awareness of shadow-non-shadow semantics and remains susceptible to color interference from nearby regions. To address these limitations, we propose CrossGate, a directional modulation mechanism that injects shadow-aware similarity into Mamba's input gate, allowing selective integration of relevant context along transition axes. To further ensure appearance fidelity, we introduce ColorShift regularization, a contrastive learning objective driven by global color statistics. By synthesizing structured informative negatives, it guides the model to suppress color contamination and achieve robust color restoration. Together, these components adapt sequence modeling to the structural integrity and chromatic consistency required for shadow removal. Extensive experiments on public benchmarks demonstrate that DeshadowMamba achieves state-of-the-art visual quality and strong quantitative performance.