One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation

作者: Jianze Li, Jiezhang Cao, Yong Guo, Wenbo Li, Yulun Zhang

分类: cs.CV

发布日期: 2025-02-04 (更新: 2025-02-12)

🔗 代码/项目: GITHUB

💡 一句话要点

提出FluxSR，通过流轨迹蒸馏实现单步真实世界图像超分辨率重建

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图像超分辨率 扩散模型 流匹配 知识蒸馏 单步模型 真实世界图像 注意力机制

📋 核心要点

多步扩散模型计算量大，限制了真实世界超分辨率的应用，而单步模型受限于教师模型性能。
提出FluxSR，利用流轨迹蒸馏将多步流匹配模型提炼为单步超分辨率模型，提升效率。
引入TV-LPIPS感知损失和注意力多样性损失，抑制高频伪影，提升图像真实感。

📝 摘要（中文）

扩散模型(DMs)显著推动了真实世界图像超分辨率(Real-ISR)的发展，但多步扩散模型的计算成本限制了其应用。单步扩散模型通过一步采样生成高质量图像，大大降低了计算开销和推理延迟。然而，现有的大多数单步扩散方法受到教师模型性能的限制，较差的教师模型性能会导致图像伪影。为了解决这个限制，我们提出FluxSR，一种基于流匹配模型的新型单步扩散Real-ISR技术。我们使用最先进的扩散模型FLUX.1-dev作为教师模型和基础模型。首先，我们引入流轨迹蒸馏(FTD)将多步流匹配模型提炼成单步Real-ISR。其次，为了提高图像的真实感并解决生成图像中的高频伪影问题，我们提出TV-LPIPS作为感知损失，并引入注意力多样性损失(ADL)作为正则化项，以降低Transformer中的token相似性，从而消除高频伪影。综合实验表明，我们的方法优于现有的基于单步扩散的Real-ISR方法。代码和模型将在https://github.com/JianzeLi-114/FluxSR发布。

🔬 方法详解

问题定义：论文旨在解决真实世界图像超分辨率重建问题，特别是单步扩散模型中因教师模型性能不足导致图像伪影的问题。现有单步方法过度依赖教师模型，如果教师模型本身存在缺陷，学生模型也会继承这些缺陷，导致重建图像质量下降。

核心思路：论文的核心思路是利用流轨迹蒸馏（FTD）将一个高性能的多步流匹配模型（FLUX.1-dev）提炼成一个单步模型。通过直接学习流的轨迹，避免了传统蒸馏方法中学生模型对教师模型误差的简单模仿，从而提升重建质量。同时，通过引入新的损失函数来进一步优化图像质量。

技术框架：FluxSR的整体框架包含以下几个关键部分：首先，使用FLUX.1-dev作为教师模型，该模型是一个基于流匹配的扩散模型。然后，利用流轨迹蒸馏（FTD）模块，将教师模型的知识迁移到单步学生模型。为了进一步提升图像质量，引入了TV-LPIPS感知损失和注意力多样性损失（ADL）。整个流程可以概括为：多步流匹配模型 -> 流轨迹蒸馏 -> 单步超分辨率模型 -> 损失函数优化。

关键创新：论文的关键创新在于流轨迹蒸馏（FTD）方法和注意力多样性损失（ADL）。FTD通过学习流的轨迹，避免了传统蒸馏方法中学生模型对教师模型误差的简单模仿。ADL则通过降低Transformer中token的相似性，从而抑制高频伪影的产生，提升图像的真实感。与现有方法的本质区别在于，FluxSR不直接模仿教师模型的输出，而是学习其内在的流轨迹，从而更有效地利用教师模型的知识。

关键设计：在损失函数方面，除了常用的L1损失和LPIPS损失外，论文还引入了TV-LPIPS损失，旨在平衡图像的平滑度和感知质量。注意力多样性损失（ADL）的具体实现是通过计算Transformer中注意力权重的相似度，并对其进行惩罚，从而鼓励模型学习更多样化的特征表示。FLUX.1-dev作为基础模型，其具体的网络结构和训练方式沿用了原论文的设置。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FluxSR在真实世界图像超分辨率任务上取得了显著的性能提升。与现有的单步扩散模型相比，FluxSR在PSNR和LPIPS等指标上均有明显优势，并且能够有效抑制高频伪影，生成更逼真的图像。具体性能数据需要在论文中查找，此处无法给出。

🎯 应用场景

该研究成果可广泛应用于图像增强、视频超分辨率、监控视频修复等领域。在实际应用中，可以提升低分辨率图像的清晰度，改善视觉体验。例如，在视频会议中，可以提升参会者的图像质量；在安防监控中，可以帮助识别更清晰的目标；在老照片修复中，可以还原更真实的细节。未来，该技术有望在移动设备、智能家居等领域得到更广泛的应用。

📄 摘要（原文）

Diffusion models (DMs) have significantly advanced the development of real-world image super-resolution (Real-ISR), but the computational cost of multi-step diffusion models limits their application. One-step diffusion models generate high-quality images in a one sampling step, greatly reducing computational overhead and inference latency. However, most existing one-step diffusion methods are constrained by the performance of the teacher model, where poor teacher performance results in image artifacts. To address this limitation, we propose FluxSR, a novel one-step diffusion Real-ISR technique based on flow matching models. We use the state-of-the-art diffusion model FLUX.1-dev as both the teacher model and the base model. First, we introduce Flow Trajectory Distillation (FTD) to distill a multi-step flow matching model into a one-step Real-ISR. Second, to improve image realism and address high-frequency artifact issues in generated images, we propose TV-LPIPS as a perceptual loss and introduce Attention Diversification Loss (ADL) as a regularization term to reduce token similarity in transformer, thereby eliminating high-frequency artifacts. Comprehensive experiments demonstrate that our method outperforms existing one-step diffusion-based Real-ISR methods. The code and model will be released at https://github.com/JianzeLi-114/FluxSR.

One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理