Taming Flow Matching with Unbalanced Optimal Transport into Fast Pansharpening

作者: Zihan Cao, Yu Zhong, Liang-Jian Deng

分类: cs.CV

发布日期: 2025-03-19

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于非平衡最优传输的流匹配框架，实现快速高质量遥感影像融合

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 全色锐化 遥感影像融合 最优传输 流匹配 非平衡最优传输 扩散模型 单步推理

📋 核心要点

现有基于扩散模型的全色锐化方法计算开销大，多步采样过程阻碍了实际部署，而减少采样步骤又会降低融合质量。
论文提出Optimal Transport Flow Matching (OTFM)框架，利用非平衡最优传输(UOT)实现单步高质量的全色锐化，提升建模灵活性。
实验结果表明，OTFM在多个数据集上，仅需单步采样即可达到或超过现有回归和扩散模型的性能。

📝 摘要（中文）

全色锐化是遥感领域中的关键任务，旨在融合高分辨率全色图像和多光谱图像。近年来，基于随机微分方程(SDEs)的扩散模型在该任务上表现出卓越的性能。然而，SDEs固有的多步采样过程带来了巨大的计算开销，阻碍了实际应用。现有方法虽然采用高效采样器、知识蒸馏或重训练来减少采样步骤，但通常会牺牲融合质量。本文提出了最优传输流匹配(OTFM)框架，该框架结合了非平衡最优传输(UOT)的对偶公式，实现了单步、高质量的全色锐化。与强制严格分布对齐的传统OT公式不同，UOT放宽了边缘约束，增强了建模灵活性，适应了遥感数据中固有的光谱和空间差异。此外，我们将特定于任务的正则化项纳入UOT目标函数中，增强了流模型的鲁棒性。OTFM框架支持无模拟训练和单步推理，同时严格遵守全色锐化约束。在多个数据集上的实验评估表明，OTFM在仅需一个采样步骤的情况下，达到或超过了先前基于回归的模型和领先的基于扩散的方法的性能。

🔬 方法详解

问题定义：全色锐化旨在融合高分辨率全色图像和低分辨率多光谱图像，生成高分辨率的多光谱图像。现有基于扩散模型的方法，如基于SDE的扩散模型，虽然性能优异，但需要进行多次迭代采样，计算成本高昂，难以实际应用。现有加速方法，如知识蒸馏，又会损失融合质量。

核心思路：论文的核心思路是利用最优传输理论，特别是Unbalanced Optimal Transport (UOT)，将全色锐化问题建模为一个流匹配问题。UOT允许源分布和目标分布的质量不守恒，这更符合全色锐化中光谱和空间信息变化的特点。通过学习一个从低分辨率多光谱图像到高分辨率多光谱图像的连续变换，实现单步高质量的图像融合。

技术框架：OTFM框架主要包含以下几个阶段：1) 使用UOT构建流匹配目标函数，该函数包含数据保真项和正则化项；2) 使用神经网络学习一个向量场，该向量场描述了从低分辨率图像到高分辨率图像的连续变换；3) 通过求解UOT的对偶问题，得到最优的传输映射；4) 在推理阶段，只需一步即可将低分辨率图像映射到高分辨率图像。

关键创新：论文的关键创新在于将非平衡最优传输(UOT)引入到流匹配框架中，用于解决全色锐化问题。UOT相比于传统的OT，放宽了边缘约束，允许源分布和目标分布的质量不守恒，从而更好地适应了全色锐化中光谱和空间信息的差异。此外，论文还设计了任务特定的正则化项，进一步提升了模型的鲁棒性。

关键设计：论文使用了U-Net作为神经网络的骨干结构，用于学习向量场。损失函数由三部分组成：数据保真项、正则化项和UOT对偶问题的解。数据保真项保证了融合后的图像与原始图像的一致性；正则化项用于约束向量场的平滑性；UOT对偶问题的解则保证了传输映射的最优性。论文还使用了Sinkhorn算法来求解UOT对偶问题。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OTFM在多个遥感数据集上取得了优异的性能。例如，在QuickBird数据集上，OTFM在仅需一个采样步骤的情况下，其ERGAS指标优于基线方法DSen2和FDPM，并且与需要1000步采样的扩散模型相当。这表明OTFM在保证融合质量的同时，显著降低了计算成本。

🎯 应用场景

该研究成果可广泛应用于遥感图像处理领域，例如城市规划、环境监测、灾害评估和农业估产等。通过快速生成高质量的全色锐化图像，可以提高遥感数据的分析效率和精度，为相关领域的决策提供更可靠的依据。未来，该方法有望推广到其他图像融合任务中。

📄 摘要（原文）

Pansharpening, a pivotal task in remote sensing for fusing high-resolution panchromatic and multispectral imagery, has garnered significant research interest. Recent advancements employing diffusion models based on stochastic differential equations (SDEs) have demonstrated state-of-the-art performance. However, the inherent multi-step sampling process of SDEs imposes substantial computational overhead, hindering practical deployment. While existing methods adopt efficient samplers, knowledge distillation, or retraining to reduce sampling steps (e.g., from 1,000 to fewer steps), such approaches often compromise fusion quality. In this work, we propose the Optimal Transport Flow Matching (OTFM) framework, which integrates the dual formulation of unbalanced optimal transport (UOT) to achieve one-step, high-quality pansharpening. Unlike conventional OT formulations that enforce rigid distribution alignment, UOT relaxes marginal constraints to enhance modeling flexibility, accommodating the intrinsic spectral and spatial disparities in remote sensing data. Furthermore, we incorporate task-specific regularization into the UOT objective, enhancing the robustness of the flow model. The OTFM framework enables simulation-free training and single-step inference while maintaining strict adherence to pansharpening constraints. Experimental evaluations across multiple datasets demonstrate that OTFM matches or exceeds the performance of previous regression-based models and leading diffusion-based methods while only needing one sampling step. Codes are available at https://github.com/294coder/PAN-OTFM.

Taming Flow Matching with Unbalanced Optimal Transport into Fast Pansharpening

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理