Rectification Reimagined: A Unified Mamba Model for Image Correction and Rectangling with Prompts

📄 arXiv: 2512.18718v2 📥 PDF

作者: Linwei Qiu, Gongzhe Li, Xiaozhe Zhang, Qilin Sun, Fengying Xie

分类: cs.CV

发布日期: 2025-12-21 (更新: 2026-02-03)

备注: AAAI 2026


💡 一句话要点

提出UniRect统一框架,利用Mamba模型解决图像校正与矩形化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图像校正 图像矩形化 Mamba模型 统一框架 深度学习 几何变换 图像恢复

📋 核心要点

  1. 现有图像校正和矩形化方法依赖于特定任务架构,泛化能力受限,难以适应多种任务。
  2. UniRect框架将不同任务的逆问题统一到通用失真模型中,采用任务无关的校正框架。
  3. 实验结果表明,UniRect模型在图像校正和矩形化任务上达到了最先进的性能。

📝 摘要(中文)

图像校正和矩形化在智能手机等实际摄影系统中具有重要价值。深度学习的最新进展显著提升了这些领域的性能。然而,现有方法主要依赖于特定任务的架构,限制了其泛化能力和在不同任务中的有效应用。本文提出了统一校正框架(UniRect),从一致的失真校正角度解决这些实际任务。通过模拟不同类型的镜头,将各种特定任务的逆问题纳入通用失真模型。UniRect采用具有双组件结构的与任务无关的校正框架:{变形模块},利用新型残差渐进薄板样条(RP-TPS)模型来处理复杂的几何变形;以及随后的恢复模块,该模块采用残差Mamba块(RMB)来抵消变形过程引起的退化并提高输出图像的保真度。此外,设计了一种稀疏混合专家(SMoEs)结构,以避免多任务学习中由于不同失真而引起的繁重任务竞争。大量实验表明,与最新的方法相比,我们的模型取得了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决图像校正和矩形化任务中,现有方法依赖于特定任务架构,泛化能力不足的问题。现有方法难以有效处理各种类型的图像失真,并且在多任务学习中存在任务竞争问题。

核心思路:论文的核心思路是将不同的图像校正和矩形化任务统一到一个通用的失真校正框架下。通过模拟不同类型的镜头失真,将各种任务转化为一个统一的逆问题。这样可以利用一个通用的模型来处理多种类型的图像失真,提高模型的泛化能力。

技术框架:UniRect框架包含两个主要模块:变形模块和恢复模块。变形模块使用残差渐进薄板样条(RP-TPS)模型来处理图像的几何变形。恢复模块使用残差Mamba块(RMB)来恢复由于变形过程引起的图像质量下降。此外,框架还包含一个稀疏混合专家(SMoEs)结构,用于解决多任务学习中的任务竞争问题。整体流程是先通过变形模块对图像进行几何校正,然后通过恢复模块提高图像质量。

关键创新:论文的关键创新在于提出了一个统一的图像校正框架UniRect,该框架能够处理多种类型的图像失真,并且具有良好的泛化能力。RP-TPS模型和RMB模块的设计也是重要的创新点,它们分别用于处理图像的几何变形和图像质量恢复。SMoEs结构则解决了多任务学习中的任务竞争问题。与现有方法相比,UniRect框架更加通用和灵活。

关键设计:RP-TPS模型采用残差连接和渐进式的薄板样条变换,可以有效地处理复杂的几何变形。RMB模块基于Mamba架构,具有强大的序列建模能力,可以有效地恢复图像质量。SMoEs结构通过稀疏激活不同的专家网络,避免了多任务学习中的任务竞争。损失函数的设计也至关重要,需要平衡几何校正和图像质量恢复之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniRect模型在图像校正和矩形化任务上取得了state-of-the-art的性能。通过与现有方法的对比实验,证明了UniRect框架的有效性和优越性。具体性能数据和提升幅度在论文中进行了详细展示,表明该模型在处理复杂图像失真方面具有显著优势。

🎯 应用场景

该研究成果可广泛应用于智能手机摄影、文档图像处理、医学图像分析、遥感图像处理等领域。通过自动校正图像失真,提高图像质量,可以改善用户体验,提升数据分析的准确性,并为相关领域的进一步研究提供技术支持。未来,该技术有望应用于增强现实、虚拟现实等新兴领域。

📄 摘要(原文)

Image correction and rectangling are valuable tasks in practical photography systems such as smartphones. Recent remarkable advancements in deep learning have undeniably brought about substantial performance improvements in these fields. Nevertheless, existing methods mainly rely on task-specific architectures. This significantly restricts their generalization ability and effective application across a wide range of different tasks. In this paper, we introduce the Unified Rectification Framework (UniRect), a comprehensive approach that addresses these practical tasks from a consistent distortion rectification perspective. Our approach incorporates various task-specific inverse problems into a general distortion model by simulating different types of lenses. To handle diverse distortions, UniRect adopts one task-agnostic rectification framework with a dual-component structure: a {Deformation Module}, which utilizes a novel Residual Progressive Thin-Plate Spline (RP-TPS) model to address complex geometric deformations, and a subsequent Restoration Module, which employs Residual Mamba Blocks (RMBs) to counteract the degradation caused by the deformation process and enhance the fidelity of the output image. Moreover, a Sparse Mixture-of-Experts (SMoEs) structure is designed to circumvent heavy task competition in multi-task learning due to varying distortions. Extensive experiments demonstrate that our models have achieved state-of-the-art performance compared with other up-to-date methods.