One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation
作者: Jianze Li, Jiezhang Cao, Yong Guo, Wenbo Li, Yulun Zhang
分类: cs.CV
发布日期: 2025-02-04 (更新: 2025-02-12)
🔗 代码/项目: GITHUB
💡 一句话要点
提出FluxSR,通过流轨迹蒸馏实现单步真实世界图像超分辨率重建
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图像超分辨率 扩散模型 流匹配 知识蒸馏 单步模型 真实世界图像 注意力机制
📋 核心要点
- 多步扩散模型计算量大,限制了真实世界超分辨率的应用,而单步模型受限于教师模型性能。
- 提出FluxSR,利用流轨迹蒸馏将多步流匹配模型提炼为单步超分辨率模型,提升效率。
- 引入TV-LPIPS感知损失和注意力多样性损失,抑制高频伪影,提升图像真实感。
📝 摘要(中文)
扩散模型(DMs)显著推动了真实世界图像超分辨率(Real-ISR)的发展,但多步扩散模型的计算成本限制了其应用。单步扩散模型通过一步采样生成高质量图像,大大降低了计算开销和推理延迟。然而,现有的大多数单步扩散方法受到教师模型性能的限制,较差的教师模型性能会导致图像伪影。为了解决这个限制,我们提出FluxSR,一种基于流匹配模型的新型单步扩散Real-ISR技术。我们使用最先进的扩散模型FLUX.1-dev作为教师模型和基础模型。首先,我们引入流轨迹蒸馏(FTD)将多步流匹配模型提炼成单步Real-ISR。其次,为了提高图像的真实感并解决生成图像中的高频伪影问题,我们提出TV-LPIPS作为感知损失,并引入注意力多样性损失(ADL)作为正则化项,以降低Transformer中的token相似性,从而消除高频伪影。综合实验表明,我们的方法优于现有的基于单步扩散的Real-ISR方法。代码和模型将在https://github.com/JianzeLi-114/FluxSR发布。
🔬 方法详解
问题定义:论文旨在解决真实世界图像超分辨率重建问题,特别是单步扩散模型中因教师模型性能不足导致图像伪影的问题。现有单步方法过度依赖教师模型,如果教师模型本身存在缺陷,学生模型也会继承这些缺陷,导致重建图像质量下降。
核心思路:论文的核心思路是利用流轨迹蒸馏(FTD)将一个高性能的多步流匹配模型(FLUX.1-dev)提炼成一个单步模型。通过直接学习流的轨迹,避免了传统蒸馏方法中学生模型对教师模型误差的简单模仿,从而提升重建质量。同时,通过引入新的损失函数来进一步优化图像质量。
技术框架:FluxSR的整体框架包含以下几个关键部分:首先,使用FLUX.1-dev作为教师模型,该模型是一个基于流匹配的扩散模型。然后,利用流轨迹蒸馏(FTD)模块,将教师模型的知识迁移到单步学生模型。为了进一步提升图像质量,引入了TV-LPIPS感知损失和注意力多样性损失(ADL)。整个流程可以概括为:多步流匹配模型 -> 流轨迹蒸馏 -> 单步超分辨率模型 -> 损失函数优化。
关键创新:论文的关键创新在于流轨迹蒸馏(FTD)方法和注意力多样性损失(ADL)。FTD通过学习流的轨迹,避免了传统蒸馏方法中学生模型对教师模型误差的简单模仿。ADL则通过降低Transformer中token的相似性,从而抑制高频伪影的产生,提升图像的真实感。与现有方法的本质区别在于,FluxSR不直接模仿教师模型的输出,而是学习其内在的流轨迹,从而更有效地利用教师模型的知识。
关键设计:在损失函数方面,除了常用的L1损失和LPIPS损失外,论文还引入了TV-LPIPS损失,旨在平衡图像的平滑度和感知质量。注意力多样性损失(ADL)的具体实现是通过计算Transformer中注意力权重的相似度,并对其进行惩罚,从而鼓励模型学习更多样化的特征表示。FLUX.1-dev作为基础模型,其具体的网络结构和训练方式沿用了原论文的设置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FluxSR在真实世界图像超分辨率任务上取得了显著的性能提升。与现有的单步扩散模型相比,FluxSR在PSNR和LPIPS等指标上均有明显优势,并且能够有效抑制高频伪影,生成更逼真的图像。具体性能数据需要在论文中查找,此处无法给出。
🎯 应用场景
该研究成果可广泛应用于图像增强、视频超分辨率、监控视频修复等领域。在实际应用中,可以提升低分辨率图像的清晰度,改善视觉体验。例如,在视频会议中,可以提升参会者的图像质量;在安防监控中,可以帮助识别更清晰的目标;在老照片修复中,可以还原更真实的细节。未来,该技术有望在移动设备、智能家居等领域得到更广泛的应用。
📄 摘要(原文)
Diffusion models (DMs) have significantly advanced the development of real-world image super-resolution (Real-ISR), but the computational cost of multi-step diffusion models limits their application. One-step diffusion models generate high-quality images in a one sampling step, greatly reducing computational overhead and inference latency. However, most existing one-step diffusion methods are constrained by the performance of the teacher model, where poor teacher performance results in image artifacts. To address this limitation, we propose FluxSR, a novel one-step diffusion Real-ISR technique based on flow matching models. We use the state-of-the-art diffusion model FLUX.1-dev as both the teacher model and the base model. First, we introduce Flow Trajectory Distillation (FTD) to distill a multi-step flow matching model into a one-step Real-ISR. Second, to improve image realism and address high-frequency artifact issues in generated images, we propose TV-LPIPS as a perceptual loss and introduce Attention Diversification Loss (ADL) as a regularization term to reduce token similarity in transformer, thereby eliminating high-frequency artifacts. Comprehensive experiments demonstrate that our method outperforms existing one-step diffusion-based Real-ISR methods. The code and model will be released at https://github.com/JianzeLi-114/FluxSR.