Improving Image-to-Image Translation via a Rectified Flow Reformulation
作者: Satoshi Iizuka, Shun Okamoto, Kazuhiro Fukui
分类: cs.CV
发布日期: 2026-03-20
💡 一句话要点
提出I2I-RFR,通过修正流重构改进图像到图像的转换任务。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像到图像转换 修正流 连续时间模型 图像修复 视频恢复
📋 核心要点
- 像素级图像到图像回归易于实现,但易过度平滑多模态目标,而生成模型则引入了额外的复杂性。
- I2I-RFR通过将噪声扰动的目标信息融入输入,并优化t-重加权像素损失,实现连续时间传输模型。
- 实验表明,I2I-RFR在多种图像转换和视频恢复任务中,显著提升了感知质量和细节保留能力。
📝 摘要(中文)
本文提出了一种图像到图像修正流重构(I2I-RFR)方法,这是一种实用的插件式重构方法,可以将标准的图像到图像回归网络重新定义为连续时间传输模型。虽然像素级的图像到图像回归简单、稳定且易于适应各种任务,但它通常会过度平滑病态和多模态目标,而生成式替代方案通常需要额外的组件、特定于任务的调整以及更复杂的训练和推理流程。我们的方法通过通道级联将ground-truth目标的噪声扰动版本添加到骨干输入中,并优化一个简单的t-重加权像素损失。这种目标函数通过诱导速度场来实现修正流解释,从而在很大程度上保留标准监督训练流程的同时,在推理时实现基于ODE的渐进式细化。在大多数情况下,采用I2I-RFR只需要扩展输入通道,并且可以使用几个显式求解器步骤(例如3步)执行推理,而无需蒸馏。在多个图像到图像转换和视频恢复任务中的大量实验表明,I2I-RFR通常可以提高各种任务和骨干网络的性能,尤其是在感知质量和细节保留方面有明显的提升。总而言之,I2I-RFR提供了一种轻量级的方法,可以将连续时间细化融入到传统的图像到图像模型中,而无需繁重的生成式流程。
🔬 方法详解
问题定义:图像到图像转换任务旨在学习一个映射函数,将输入图像转换成目标图像。现有的像素级回归方法虽然简单,但容易产生过平滑的结果,尤其是在目标具有多模态分布时。而基于生成模型的方法,如GANs,虽然可以生成更逼真的图像,但训练过程复杂,需要精细的调参,且容易出现训练不稳定等问题。
核心思路:I2I-RFR的核心思路是将图像到图像的转换过程视为一个连续时间的传输过程,通过引入修正流的概念,将回归问题转化为求解一个常微分方程(ODE)的问题。通过在输入中加入噪声扰动的目标图像信息,引导模型学习一个速度场,使得输入图像沿着这个速度场逐渐演化成目标图像。这样可以在保留回归方法稳定性的同时,提升生成图像的质量和细节。
技术框架:I2I-RFR的整体框架是在现有的图像到图像回归模型的基础上进行改进。首先,将ground-truth目标图像添加噪声,然后将噪声图像与输入图像进行通道级的拼接,作为模型的输入。模型输出一个速度场,用于描述图像的演化过程。在训练过程中,使用t-重加权像素损失来优化模型,鼓励模型学习到正确的速度场。在推理过程中,通过求解ODE,逐步将输入图像演化成目标图像。
关键创新:I2I-RFR最重要的创新点在于将修正流的概念引入到图像到图像的转换任务中,并提出了一种简单有效的实现方式。与传统的生成模型相比,I2I-RFR不需要复杂的对抗训练,只需要一个简单的回归模型即可实现高质量的图像生成。此外,I2I-RFR的推理过程可以通过求解ODE来实现,可以灵活地控制生成图像的质量和速度。
关键设计:I2I-RFR的关键设计包括:1) 输入通道的扩展,将噪声扰动的目标图像信息融入输入;2) t-重加权像素损失,用于优化模型,鼓励模型学习到正确的速度场;3) 基于ODE的推理过程,通过求解ODE逐步将输入图像演化成目标图像。具体的噪声添加方式和ODE求解器可以根据具体的任务进行选择。
🖼️ 关键图片
📊 实验亮点
实验结果表明,I2I-RFR在多个图像到图像转换和视频恢复任务中都取得了显著的性能提升。例如,在图像修复任务中,I2I-RFR可以生成更逼真的修复结果,细节更加丰富。在视频恢复任务中,I2I-RFR可以有效地去除视频中的噪声和模糊,提升视频的清晰度和流畅度。与现有的方法相比,I2I-RFR在感知质量和细节保留方面都有明显的优势。
🎯 应用场景
I2I-RFR具有广泛的应用前景,可以应用于图像修复、图像着色、图像超分辨率、风格迁移、视频恢复等领域。该方法可以提升生成图像的感知质量和细节保留能力,从而改善用户体验。此外,I2I-RFR的训练过程相对简单,易于部署和应用,具有很高的实际价值。未来,该方法可以进一步扩展到其他图像生成任务中,例如图像编辑、图像合成等。
📄 摘要(原文)
In this work, we propose Image-to-Image Rectified Flow Reformulation (I2I-RFR), a practical plug-in reformulation that recasts standard I2I regression networks as continuous-time transport models. While pixel-wise I2I regression is simple, stable, and easy to adapt across tasks, it often over-smooths ill-posed and multimodal targets, whereas generative alternatives often require additional components, task-specific tuning, and more complex training and inference pipelines. Our method augments the backbone input by channel-wise concatenation with a noise-corrupted version of the ground-truth target and optimizes a simple t-reweighted pixel loss. This objective admits a rectified-flow interpretation via an induced velocity field, enabling ODE-based progressive refinement at inference time while largely preserving the standard supervised training pipeline. In most cases, adopting I2I-RFR requires only expanding the input channels, and inference can be performed with a few explicit solver steps (e.g., 3 steps) without distillation. Extensive experiments across multiple image-to-image translation and video restoration tasks show that I2I-RFR generally improves performance across a wide range of tasks and backbones, with particularly clear gains in perceptual quality and detail preservation. Overall, I2I-RFR provides a lightweight way to incorporate continuous-time refinement into conventional I2I models without requiring a heavy generative pipeline.