Diffusion Mental Averages
作者: Phonphrm Thawatdamrongkit, Sukit Seripanitkarn, Supasorn Suwajanakorn
分类: cs.CV
发布日期: 2026-03-31
备注: CVPR 2026. Project page: https://diffusion-mental-averages.github.io/
💡 一句话要点
提出Diffusion Mental Averages (DMA),在扩散模型中生成概念的清晰逼真“心理平均”图像。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 图像平均 语义空间 轨迹对齐 概念表示
📋 核心要点
- 现有方法在平均扩散模型生成的图像时会产生模糊结果,因为它们是数据驱动的,忽略了扩散模型的生成过程。
- DMA的核心思想是在扩散模型的语义空间内进行平均,通过优化噪声潜在变量的去噪轨迹,使其收敛到共享的语义。
- DMA能够为抽象概念生成清晰逼真的平均图像,并可用于分析模型的偏差和概念表示。
📝 摘要(中文)
本文提出Diffusion Mental Averages (DMA),一种模型中心的方法,旨在使扩散模型能够生成概念的“心理平均”图像,该图像应与典型的采样一样清晰逼真。现有方法虽然可以平均图像集合,但应用于来自同一提示的扩散模型样本时,会产生模糊的结果。这些数据中心的技术在模型外部运行,忽略了生成过程。相比之下,DMA在扩散模型的语义空间内进行平均。由于该空间随时间步长演变且缺乏直接的解码器,因此我们将平均过程转化为轨迹对齐:优化多个噪声潜在变量,使其去噪轨迹逐步收敛到共享的由粗到精的语义,从而产生单个清晰的原型。我们通过在CLIP等语义丰富的空间中对样本进行聚类,并应用Textual Inversion或LoRA将CLIP聚类桥接到扩散空间,从而将我们的方法扩展到多模态概念(例如,具有多个品种的狗)。据我们所知,这是第一个能够提供一致、逼真平均结果的方法,即使对于抽象概念也是如此,它可以作为具体的视觉摘要和了解模型偏差和概念表示的窗口。
🔬 方法详解
问题定义:现有方法在对扩散模型生成的图像进行平均时,通常会产生模糊的结果。这些方法通常是数据驱动的,直接对图像像素进行平均,而忽略了扩散模型内部的生成过程和语义空间。因此,它们无法有效地捕捉概念的本质特征,导致平均结果不够清晰和逼真。
核心思路:DMA的核心思路是在扩散模型的潜在语义空间中进行平均,而不是直接在像素空间中进行平均。通过优化多个噪声潜在变量,使其在扩散模型的去噪过程中逐步收敛到共享的语义表示,从而生成一个清晰的“心理平均”图像。这种方法能够更好地利用扩散模型的生成能力,并避免了直接像素平均导致的模糊问题。
技术框架:DMA的整体框架包括以下几个主要步骤:1) 从扩散模型中采样多个图像样本,这些样本对应于要平均的概念。2) 将这些样本映射到扩散模型的潜在空间,得到对应的噪声潜在变量。3) 通过优化算法,调整这些噪声潜在变量,使其在扩散模型的去噪过程中逐步收敛到共享的语义表示。4) 将收敛后的潜在变量输入扩散模型,生成最终的“心理平均”图像。对于多模态概念,DMA还包括一个额外的聚类步骤,用于将样本划分为不同的子概念,并为每个子概念生成一个平均图像。
关键创新:DMA的关键创新在于它将平均过程放在扩散模型的语义空间中进行,而不是在像素空间中进行。这种方法能够更好地利用扩散模型的生成能力,并避免了直接像素平均导致的模糊问题。此外,DMA还提出了一种轨迹对齐的优化方法,用于调整噪声潜在变量,使其在扩散模型的去噪过程中逐步收敛到共享的语义表示。
关键设计:DMA的关键设计包括:1) 使用CLIP等语义丰富的空间对样本进行聚类,以处理多模态概念。2) 使用Textual Inversion或LoRA等技术将CLIP聚类桥接到扩散模型的潜在空间。3) 设计合适的损失函数,用于衡量噪声潜在变量之间的语义距离,并引导它们收敛到共享的语义表示。4) 选择合适的优化算法,例如梯度下降或Adam,用于调整噪声潜在变量。
🖼️ 关键图片
📊 实验亮点
DMA在生成概念的平均图像方面取得了显著的成果。与现有方法相比,DMA能够生成更清晰、更逼真的平均图像,即使对于抽象概念也是如此。实验结果表明,DMA生成的平均图像能够更好地捕捉概念的本质特征,并能够反映模型对概念的理解和偏差。
🎯 应用场景
DMA可应用于多种场景,例如生成概念的视觉摘要、分析模型的偏差和概念表示、以及创建新的图像编辑工具。它可以帮助用户更好地理解和控制扩散模型的生成过程,并为图像生成和编辑提供更强大的工具。此外,DMA还可以用于教育领域,帮助学生更好地理解抽象概念。
📄 摘要(原文)
Can a diffusion model produce its own "mental average" of a concept-one that is as sharp and realistic as a typical sample? We introduce Diffusion Mental Averages (DMA), a model-centric answer to this question. While prior methods aim to average image collections, they produce blurry results when applied to diffusion samples from the same prompt. These data-centric techniques operate outside the model, ignoring the generative process. In contrast, DMA averages within the diffusion model's semantic space, as discovered by recent studies. Since this space evolves across timesteps and lacks a direct decoder, we cast averaging as trajectory alignment: optimize multiple noise latents so their denoising trajectories progressively converge toward shared coarse-to-fine semantics, yielding a single sharp prototype. We extend our approach to multimodal concepts (e.g., dogs with many breeds) by clustering samples in semantically-rich spaces such as CLIP and applying Textual Inversion or LoRA to bridge CLIP clusters into diffusion space. This is, to our knowledge, the first approach that delivers consistent, realistic averages, even for abstract concepts, serving as a concrete visual summary and a lens into model biases and concept representation.