Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception

📄 arXiv: 2603.11556v1 📥 PDF

作者: Xinyu Nan, Ning Wang, Yuyao Zhai, Mei Yang

分类: cs.CV

发布日期: 2026-03-12


💡 一句话要点

提出基于双重条件扩散模型的图像美学增强方法,利用多模态感知提升效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像美学增强 扩散模型 多模态感知 弱监督学习 图像编辑

📋 核心要点

  1. 现有图像美学增强方法难以理解模糊的美学指令,且缺乏高质量的训练数据。
  2. DIAE模型利用多模态感知将模糊指令转化为明确指导,并构建了不完美配对数据集。
  3. 实验表明,DIAE在图像美学评分和内容一致性方面均优于现有方法。

📝 摘要(中文)

图像美学增强旨在感知图像中的美学缺陷并执行相应的编辑操作,这是一项极具挑战性的任务,要求模型具备创造力和美学感知能力。尽管图像编辑模型取得了显著进展,但在图像美学增强方面仍然存在困难。主要挑战有两个:一是难以遵循具有美学感知的编辑指令,二是缺乏内容一致但美学质量不同的“完美配对”图像。本文提出了一种双重监督图像美学增强(DIAE)方法,这是一种基于扩散的生成模型,具有多模态美学感知能力。DIAE通过多模态美学感知(MAP)将模糊的美学指令转化为明确的指导,具体方法是:(i)采用跨多个美学属性的详细、标准化的美学指令,以及(ii)利用来自文本-图像对的多模态控制信号,这些信号在同一美学属性内保持一致性。此外,为了缓解缺乏“完美配对”图像的问题,我们收集了一个名为IIAEData的“不完美配对”数据集,该数据集包含具有不同美学质量但共享相同语义的图像。为了更好地利用IIAEData在训练期间的弱匹配特性,还引入了双分支监督框架,用于弱监督图像美学增强。实验结果表明,DIAE优于基线方法,并获得了更高的图像美学评分和图像内容一致性评分。

🔬 方法详解

问题定义:图像美学增强旨在自动提升图像的美学质量,使其更具吸引力。现有方法主要面临两个痛点:一是难以准确理解和执行用户的美学编辑指令,因为这些指令通常是模糊和主观的;二是缺乏高质量的训练数据,即内容相同但美学质量不同的图像对,这限制了模型的学习能力。

核心思路:DIAE的核心思路是利用多模态信息(文本和图像)来更精确地表达美学指令,并采用弱监督学习策略来克服训练数据不足的问题。通过将模糊的美学指令转化为明确的多模态控制信号,模型可以更好地理解用户的意图并生成具有期望美学质量的图像。同时,利用“不完美配对”数据集和双分支监督框架,可以有效地利用弱匹配信息进行训练。

技术框架:DIAE是一个基于扩散模型的生成框架,包含以下主要模块:1) 多模态美学感知(MAP)模块:将文本描述的美学属性和参考图像的美学特征融合,生成多模态控制信号。2) 扩散模型:以图像为输入,逐步添加噪声,然后学习逆向过程,从噪声中重建图像。3) 双分支监督框架:利用“不完美配对”数据集,分别对原始图像和增强后的图像进行监督,鼓励模型在提升美学质量的同时保持内容一致性。

关键创新:DIAE的关键创新在于:1) 提出了多模态美学感知(MAP)模块,能够将模糊的美学指令转化为明确的多模态控制信号,从而更有效地指导图像生成过程。2) 构建了“不完美配对”数据集IIAEData,并设计了双分支监督框架,解决了缺乏高质量训练数据的问题,实现了弱监督图像美学增强。

关键设计:在多模态美学感知模块中,使用了预训练的CLIP模型来提取文本和图像的特征,并通过注意力机制进行融合。在双分支监督框架中,使用了L1损失和感知损失来约束生成图像的内容一致性,并使用美学评分损失来鼓励模型提升图像的美学质量。扩散模型采用DDPM架构,并使用U-Net作为主干网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DIAE在图像美学评分(如BRISQUE、NIQE)和内容一致性评分(如LPIPS)方面均优于现有基线方法。例如,在IIAEData数据集上,DIAE的BRISQUE评分比最佳基线方法降低了约10%,LPIPS评分降低了约5%,表明DIAE能够生成美学质量更高且内容一致性更好的图像。

🎯 应用场景

该研究成果可应用于图像编辑软件、社交媒体平台和摄影辅助工具等领域,帮助用户快速提升图像的美学质量,创作出更具吸引力的视觉内容。此外,该技术还可以应用于艺术创作、广告设计等领域,为专业人士提供更高效的图像美学增强解决方案。未来,该技术有望与虚拟现实、增强现实等新兴技术相结合,创造更丰富的用户体验。

📄 摘要(原文)

Image aesthetic enhancement aims to perceive aesthetic deficiencies in images and perform corresponding editing operations, which is highly challenging and requires the model to possess creativity and aesthetic perception capabilities. Although recent advancements in image editing models have significantly enhanced their controllability and flexibility, they struggle with enhancing image aesthetic. The primary challenges are twofold: first, following editing instructions with aesthetic perception is difficult, and second, there is a scarcity of "perfectly-paired" images that have consistent content but distinct aesthetic qualities. In this paper, we propose Dual-supervised Image Aesthetic Enhancement (DIAE), a diffusion-based generative model with multimodal aesthetic perception. First, DIAE incorporates Multimodal Aesthetic Perception (MAP) to convert the ambiguous aesthetic instruction into explicit guidance by (i) employing detailed, standardized aesthetic instructions across multiple aesthetic attributes, and (ii) utilizing multimodal control signals derived from text-image pairs that maintain consistency within the same aesthetic attribute. Second, to mitigate the lack of "perfectly-paired" images, we collect "imperfectly-paired" dataset called IIAEData, consisting of images with varying aesthetic qualities while sharing identical semantics. To better leverage the weak matching characteristics of IIAEData during training, a dual-branch supervision framework is also introduced for weakly supervised image aesthetic enhancement. Experimental results demonstrate that DIAE outperforms the baselines and obtains superior image aesthetic scores and image content consistency scores.