Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation

📄 arXiv: 2509.10058v1 📥 PDF

作者: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai

分类: cs.CV

发布日期: 2025-09-12

备注: Accepted to ACM Multimedia 2025 (MM '25)

DOI: 10.1145/3746027.3755385


💡 一句话要点

提出一种免训练框架,通过LLM增强文本嵌入,提升扩散模型生成图像的颜色准确性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 扩散模型 颜色对齐 大型语言模型 文本嵌入 CIELAB颜色空间 颜色歧义消解

📋 核心要点

  1. 现有文本到图像生成模型在处理复杂颜色描述时,颜色还原准确性不足,难以满足时尚、产品设计等应用需求。
  2. 该论文提出利用大型语言模型消解颜色歧义,并在文本嵌入空间中引导颜色混合,从而提升颜色生成精度。
  3. 实验结果表明,该方法无需额外训练或参考图像,即可有效提高颜色对齐准确性,同时保持图像质量。

📝 摘要(中文)

本文提出了一种免训练框架,旨在提高文本到图像(T2I)生成中颜色对齐的准确性。现有的扩散模型在处理细微和复合颜色术语(例如,蒂芙尼蓝、石灰绿、火热粉)时存在困难,常常产生与人类意图不符的图像。为了精确渲染提示中的颜色,该方法利用大型语言模型(LLM)消除颜色相关提示的歧义,并直接在文本嵌入空间中引导颜色混合操作。该方法首先使用LLM来解析文本提示中模糊的颜色术语,然后基于CIELAB颜色空间中颜色术语的空间关系来细化文本嵌入。实验结果表明,该框架在不影响图像质量的前提下,提高了颜色对齐的准确性,弥合了文本语义和视觉生成之间的差距。

🔬 方法详解

问题定义:当前文本到图像生成模型在处理复杂或模糊的颜色描述时,生成的图像颜色往往与用户意图不符。现有方法如交叉注意力操作、参考图像或微调等,无法系统性地解决颜色歧义问题,导致颜色生成不准确,影响用户体验。

核心思路:该论文的核心思路是利用大型语言模型(LLM)的语义理解能力,对文本提示中的颜色描述进行消歧,并将消歧后的颜色信息融入到文本嵌入中,从而引导扩散模型生成更符合用户意图的图像。通过在文本嵌入空间中进行颜色混合操作,实现对颜色生成的精确控制。

技术框架:该框架主要包含两个阶段:1) 颜色歧义消解阶段:使用LLM解析文本提示,识别并消除颜色描述中的歧义,例如将“Tiffany blue”解析为具体的颜色值。2) 文本嵌入优化阶段:基于CIELAB颜色空间中颜色术语的空间关系,调整文本嵌入,引导颜色混合操作。整个过程无需额外的训练或参考图像。

关键创新:该方法最重要的创新点在于利用LLM的语义理解能力来增强文本嵌入,从而实现对颜色生成的精确控制。与现有方法相比,该方法无需额外的训练或参考图像,即可有效提高颜色对齐的准确性。此外,直接在文本嵌入空间中进行颜色混合操作,避免了对扩散模型结构的修改。

关键设计:该方法的关键设计包括:1) 使用特定的LLM(具体型号未知)进行颜色歧义消解;2) 基于CIELAB颜色空间计算颜色之间的空间关系,并用于调整文本嵌入;3) 在文本嵌入空间中定义颜色混合操作的具体方式(具体公式或算法未知)。这些设计共同保证了颜色生成的准确性和可控性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文提出了一种免训练的颜色增强框架,实验结果表明,该方法能够在不影响图像质量的前提下,显著提高颜色对齐的准确性。具体的性能数据和对比基线未在摘要中明确给出,但强调了该方法在解决颜色歧义问题上的有效性。

🎯 应用场景

该研究成果可广泛应用于时尚、产品可视化、室内设计等领域,提升用户在文本到图像生成中对颜色的控制能力,实现更逼真、更符合用户意图的图像生成。该方法有望推动个性化定制、虚拟试穿、智能家居设计等应用的发展,具有重要的实际价值和商业潜力。

📄 摘要(原文)

Accurate color alignment in text-to-image (T2I) generation is critical for applications such as fashion, product visualization, and interior design, yet current diffusion models struggle with nuanced and compound color terms (e.g., Tiffany blue, lime green, hot pink), often producing images that are misaligned with human intent. Existing approaches rely on cross-attention manipulation, reference images, or fine-tuning but fail to systematically resolve ambiguous color descriptions. To precisely render colors under prompt ambiguity, we propose a training-free framework that enhances color fidelity by leveraging a large language model (LLM) to disambiguate color-related prompts and guiding color blending operations directly in the text embedding space. Our method first employs a large language model (LLM) to resolve ambiguous color terms in the text prompt, and then refines the text embeddings based on the spatial relationships of the resulting color terms in the CIELAB color space. Unlike prior methods, our approach improves color accuracy without requiring additional training or external reference images. Experimental results demonstrate that our framework improves color alignment without compromising image quality, bridging the gap between text semantics and visual generation.