Test-Time Compositional Generalization in Diffusion Models via Concept Discovery

📄 arXiv: 2605.07078v1 📥 PDF

作者: Zekun Wang, Anant Gupta, Tianyi Zhu, Christopher J. MacLellan

分类: cs.LG

发布日期: 2026-05-08

备注: 9 pages


💡 一句话要点

提出基于概念发现的测试时组合泛化方法,实现扩散模型无需预定义库的零样本组合生成。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 组合泛化 测试时学习 分数函数 专家乘积 零样本生成 密度模态发现

📋 核心要点

  1. 现有组合生成方法依赖预定义的条件信号或概念库,难以应对未见过的组合查询。
  2. 提出利用扩散模型的时间索引分数几何结构,通过梯度上升发现局部密度模态并构建专家乘积模型。
  3. 在ColorMNIST和CelebA基准上验证了该方法在零样本组合生成任务中显著优于现有基线。

📝 摘要(中文)

组合泛化要求模型能够从熟悉的组件中构建新颖的配置。在扩散模型中,现有的组合生成方法通常假设相关的概念或条件信号是预先可知的。本文提出了一种新方法,探讨预训练扩散模型是否能从其学习到的含噪边缘分布 $p_t(x_t)$ 的时间索引分数中发现查询特定的概念,并在测试时进行组合。给定单个分布外查询,该方法通过在多个去噪时间步对分数函数 $s_θ(x_t,t)$ 执行梯度上升以恢复局部密度模态,将这些模态映射为清洁空间的高斯分布,利用子模似然目标贪婪地选择相关原型,并将其组合为具有解析分数的专家乘积(PoE)教师模型。该教师模型既可直接通过无分类器引导进行采样,也可用于生成样本池以训练新的类别嵌入和低秩适配器。在 ColorMNIST 和 CelebA 的组合基准测试中,该方法在解析 PoE 采样器和低秩适配模型上均优于仅基于查询和最近训练类别的基线,表明扩散模型的时间索引分数几何结构中蕴含了可重用的密度模态概念。

🔬 方法详解

问题定义:现有扩散模型在处理分布外(OOD)组合任务时,往往受限于预定义的提示词或概念库。当面对未见过的组合查询时,模型缺乏从预训练权重中自动提取并组合相关语义特征的能力。

核心思路:论文提出利用扩散模型在训练过程中学习到的分数函数(Score Function)作为“概念发现器”。通过在不同时间步对分数函数进行梯度上升,可以定位并提取出隐含在模型权重中的局部密度模态,从而实现无需显式标注的组合生成。

技术框架:首先,在多个时间步对 $s_θ(x_t,t)$ 执行梯度上升以恢复局部密度模态;其次,将这些模态映射为清洁空间的 Gaussian 原型;接着,通过子模似然目标(Submodular Likelihood Objective)贪婪筛选出与查询最相关的原型;最后,将这些原型组合为专家乘积(PoE)教师模型,用于指导采样或微调低秩适配器(LoRA)。

关键创新:首次证明了扩散模型的时间索引分数几何结构中天然蕴含了可重用的密度模态,实现了无需预定义概念库的测试时组合泛化,打破了对外部条件信号的强依赖。

关键设计:采用了基于子模优化的原型选择策略,确保组合过程的有效性;同时支持直接的解析 PoE 采样或通过生成样本池进行 LoRA 微调,提供了灵活的推理与适配路径。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ColorMNIST和CelebA组合基准测试中,该方法表现出色。实验结果显示,无论是直接使用解析PoE采样器,还是利用其生成的样本池训练低秩适配器,均在组合准确率和图像质量上显著超越了仅基于查询的基线模型及最近训练类别基线,验证了该方法在挖掘模型内部知识方面的有效性。

🎯 应用场景

该研究在艺术创作、工业设计及个性化内容生成领域具有重要价值。它允许用户通过简单的组合查询,无需重新训练模型即可生成复杂的定制化图像,显著降低了模型适配新任务的计算成本,并提升了扩散模型在零样本场景下的泛化能力与可控性。

📄 摘要(原文)

Compositional generalization requires models to produce novel configurations from familiar parts. In diffusion models, prior compositional generation methods typically assume that the relevant concepts or conditioning signals are already available. We instead ask whether a pretrained diffusion model can discover query-specific concepts from the time-indexed scores it learns for the noisy marginals $p_t(x_t)$ and compose them at test time. Given a single out-of-distribution query, our method performs gradient ascent on $s_θ(x_t,t) \approx \nabla_{x_t}\log p_t(x_t)$ at multiple noising timesteps to recover local density modes, maps these modes into clean-space Gaussians, greedily selects relevant prototypes with a submodular likelihood objective, and combines them into a product-of-experts (PoE) teacher model with an analytic score. This teacher model can be sampled directly through classifier-free guidance or used to generate a sample pool for training a new class embedding and low-rank adapter. On held-out composition benchmarks built from ColorMNIST and CelebA, both the analytic PoE sampler and the low-rank adapted model outperform query-only and nearest trained-class baselines. These results suggest that the time-indexed score geometry of the diffusion model contains reusable density-mode concepts that support test-time compositional generation without a predefined concept library.