ColorFLUX: A Structure-Color Decoupling Framework for Old Photo Colorization
作者: Bingchen Li, Zhixin Wang, Fan Li, Jiaqi Xu, Jiaming Guo, Renjing Pei, Xin Li, Zhibo Chen
分类: cs.CV
发布日期: 2026-03-30
备注: Accepted by CVPR26
💡 一句话要点
ColorFLUX:基于结构-颜色解耦的老照片着色框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 老照片着色 结构颜色解耦 生成扩散模型 视觉语义提示 直接偏好优化 图像恢复 领域自适应
📋 核心要点
- 老照片着色面临亮度衰减、色调改变等退化问题,与现代照片存在显著领域差异,导致现有方法难以精确着色。
- ColorFLUX采用结构-颜色解耦策略,分离结构保持和颜色恢复,并利用渐进式直接偏好优化学习颜色偏好。
- 通过视觉语义提示提取老照片细粒度语义信息,消除颜色偏差,实验结果优于现有方法和商业模型。
📝 摘要(中文)
老照片蕴含着宝贵的历史记忆,因此对其进行修复和着色具有重要意义。现有的修复模型虽然可以解决一些退化问题,如去噪和划痕去除,但通常难以实现精确的着色。这种局限性源于老照片固有的独特退化,例如亮度衰减和色调改变,这与现代照片的分布不同,在着色过程中造成了巨大的领域差距。本文提出了一种基于生成扩散模型FLUX的新型老照片着色框架。我们的方法引入了一种结构-颜色解耦策略,将结构保持与颜色恢复分离,从而在保持结构一致性的同时,实现老照片的精确着色。我们还通过渐进式直接偏好优化(Pro-DPO)策略增强了模型,该策略允许模型通过颜色增强中的粗到细过渡来学习细微的颜色偏好。此外,我们通过引入视觉语义提示来解决基于文本的提示的局限性,视觉语义提示直接从老照片中提取细粒度的语义信息,有助于消除老照片中固有的颜色偏差。在合成和真实数据集上的实验结果表明,我们的方法优于现有的最先进的着色方法,包括闭源商业模型,产生高质量和生动的着色效果。
🔬 方法详解
问题定义:老照片着色的核心问题在于其独特的退化现象,如亮度衰减、颜色失真等,导致其与现代照片存在显著的领域差异。现有的着色方法通常在现代照片数据集上训练,难以适应老照片的特性,导致着色结果不准确、不自然。此外,基于文本提示的着色方法也存在局限性,难以准确捕捉老照片中的细粒度语义信息,从而引入颜色偏差。
核心思路:ColorFLUX的核心思路是将结构信息和颜色信息解耦,分别进行处理。通过结构保持分支确保着色后的照片在结构上与原图一致,避免引入伪影或失真。通过颜色恢复分支,利用生成扩散模型学习老照片的颜色分布,并结合视觉语义提示,消除颜色偏差,实现准确的颜色恢复。渐进式直接偏好优化(Pro-DPO)策略则用于学习细微的颜色偏好,提升着色效果的自然度和真实感。
技术框架:ColorFLUX框架主要包含以下几个模块:1) 结构保持模块:用于提取和保持老照片的结构信息。2) 颜色恢复模块:基于生成扩散模型FLUX,用于学习老照片的颜色分布并进行颜色恢复。3) 视觉语义提示模块:用于从老照片中提取细粒度的语义信息,作为颜色恢复的指导。4) 渐进式直接偏好优化模块:用于学习细微的颜色偏好,提升着色效果。整体流程是:首先,将老照片输入结构保持模块和视觉语义提示模块,分别提取结构信息和语义信息。然后,将结构信息和语义信息输入颜色恢复模块,生成着色后的照片。最后,利用渐进式直接偏好优化模块对模型进行微调,提升着色效果。
关键创新:ColorFLUX的关键创新在于结构-颜色解耦策略和视觉语义提示。结构-颜色解耦策略能够有效分离结构保持和颜色恢复,避免相互干扰,从而提高着色精度。视觉语义提示能够从老照片中提取细粒度的语义信息,消除颜色偏差,提升着色效果的真实感。此外,渐进式直接偏好优化(Pro-DPO)策略也是一个重要的创新点,它能够学习细微的颜色偏好,提升着色效果的自然度和美观度。
关键设计:在结构保持模块中,可能采用了边缘检测、纹理分析等技术来提取结构信息。在颜色恢复模块中,FLUX扩散模型可能采用了U-Net结构,并结合了注意力机制来提升生成效果。视觉语义提示模块可能采用了预训练的视觉模型,如CLIP,来提取语义信息。渐进式直接偏好优化(Pro-DPO)策略可能采用了不同的颜色增强方法,如颜色抖动、颜色平衡等,并逐步调整增强的强度,以学习细微的颜色偏好。具体的损失函数可能包括L1损失、L2损失、感知损失等,用于衡量生成图像与真实图像之间的差异。
🖼️ 关键图片
📊 实验亮点
ColorFLUX在合成和真实数据集上均取得了优于现有方法的性能。实验结果表明,ColorFLUX能够生成高质量、生动的着色效果,在视觉效果上明显优于其他方法,包括闭源商业模型。具体的性能指标(如PSNR、SSIM等)和提升幅度未知,但摘要强调了其显著的优越性。
🎯 应用场景
ColorFLUX在老照片修复、历史影像资料数字化、博物馆文物保护等领域具有广泛的应用前景。它可以帮助人们恢复珍贵的历史记忆,提升老照片的视觉质量,为历史研究和文化传承提供支持。此外,该技术还可以应用于电影修复、游戏开发等领域,提升视觉体验。
📄 摘要(原文)
Old photos preserve invaluable historical memories, making their restoration and colorization highly desirable. While existing restoration models can address some degradation issues like denoising and scratch removal, they often struggle with accurate colorization. This limitation arises from the unique degradation inherent in old photos, such as faded brightness and altered color hues, which are different from modern photo distributions, creating a substantial domain gap during colorization. In this paper, we propose a novel old photo colorization framework based on the generative diffusion model FLUX. Our approach introduces a structure-color decoupling strategy that separates structure preservation from color restoration, enabling accurate colorization of old photos while maintaining structural consistency. We further enhance the model with a progressive Direct Preference Optimization (Pro-DPO) strategy, which allows the model to learn subtle color preferences through coarse-to-fine transitions in color augmentation. Additionally, we address the limitations of text-based prompts by introducing visual semantic prompts, which extract fine-grained semantic information directly from old photos, helping to eliminate the color bias inherent in old photos. Experimental results on both synthetic and real datasets demonstrate that our approach outperforms existing state-of-the-art colorization methods, including closed-source commercial models, producing high-quality and vivid colorization.