Restoring Initial Noise Sensitivity in Text-to-Image Distillation via Geometric Alignment

📄 arXiv: 2606.01651v1 📥 PDF

作者: Huayang Huang, Ruoyu Wang, Jinhui Zhao, Wei Deng, Daiguo Zhou, Jian Luan, Yu Wu, Ye Zhu

分类: cs.CV

发布日期: 2026-06-01

备注: ICML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出几何感知蒸馏(GAD),恢复文本到图像蒸馏中对初始噪声的敏感性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本到图像生成 生成式蒸馏 噪声敏感性 几何感知 雅可比向量积

📋 核心要点

  1. 现有文本到图像蒸馏方法忽略了对初始噪声的敏感性,这会影响下游控制任务的性能。
  2. GAD通过对齐教师和学生模型的局部函数行为,特别是匹配雅可比向量积,来恢复这种敏感性。
  3. 实验表明,GAD在保持视觉质量的同时,显著提高了生成图像的多样性和对噪声的敏感性。

📝 摘要(中文)

生成式蒸馏通过将多步轨迹压缩为少步学生模型,在保持感知质量的同时显著加速了文本到图像(T2I)的生成。然而,现有方法主要优化效率和输出保真度,常常忽略了原始轨迹的关键属性。本文发现了一个关键的缺失属性:对初始噪声的敏感性,其退化会损害依赖于基于噪声的优化和操作的下游控制方法。我们将此问题追溯到强制执行逐点输出对齐的标准蒸馏目标,这会无意中展平输入-输出景观并抑制教师模型的局部几何结构。为了解决这个问题,我们提出了几何感知蒸馏(GAD),这是一个保持敏感性的框架,可以对齐教师和学生模型的局部函数行为。具体来说,GAD匹配关于输入噪声的雅可比向量积,使学生能够重现教师模型对扰动的微分响应。跨多个T2I范例和噪声驱动的控制任务的大量实验表明,GAD显著恢复了敏感性并提高了多样性,同时保持了高视觉保真度。

🔬 方法详解

问题定义:现有文本到图像蒸馏方法主要关注生成效率和图像质量,忽略了模型对初始噪声的敏感性。这种敏感性的缺失会严重影响依赖噪声优化的下游任务,例如图像编辑和风格迁移。现有方法通过逐点对齐教师和学生模型的输出,实际上平滑了输入-输出空间,抑制了教师模型的局部几何结构,从而降低了对噪声的敏感性。

核心思路:本文的核心思路是恢复学生模型对初始噪声的敏感性,使其能够更好地模仿教师模型对噪声扰动的响应。通过对齐教师和学生模型在局部几何结构上的行为,即匹配它们对输入噪声的雅可比向量积,可以使学生模型更好地捕捉教师模型的微分响应,从而恢复对噪声的敏感性。

技术框架:GAD (Geometry-Aware Distillation) 框架主要包含以下几个步骤:首先,利用教师模型生成图像;然后,对输入噪声进行微小扰动,并计算教师模型对扰动的响应;接着,计算教师模型和学生模型关于输入噪声的雅可比向量积;最后,通过最小化教师模型和学生模型雅可比向量积之间的差异,来训练学生模型,使其能够更好地模仿教师模型对噪声的响应。

关键创新:GAD的关键创新在于提出了几何感知的蒸馏方法,通过对齐教师和学生模型的局部几何结构,恢复了学生模型对初始噪声的敏感性。与传统的逐点对齐方法不同,GAD关注的是模型在局部空间中的行为,而不是仅仅关注单个点的输出。这种方法能够更好地捕捉教师模型的微分响应,从而提高学生模型的性能。

关键设计:GAD的关键设计在于雅可比向量积的计算和对齐。论文使用了一种高效的计算雅可比向量积的方法,避免了直接计算雅可比矩阵的巨大计算量。此外,论文还设计了一种损失函数,用于衡量教师模型和学生模型雅可比向量积之间的差异。通过最小化该损失函数,可以有效地对齐教师和学生模型的局部几何结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GAD在多个文本到图像生成模型上都取得了显著的性能提升。与现有蒸馏方法相比,GAD在恢复对初始噪声的敏感性方面表现更佳,同时保持了较高的图像质量。在噪声驱动的控制任务中,GAD能够生成更多样化和可控的图像,证明了其有效性。

🎯 应用场景

该研究成果可应用于各种文本到图像生成任务,尤其是在需要对生成图像进行精细控制和编辑的场景中。例如,可以用于图像风格迁移、图像修复、个性化图像生成等。通过恢复模型对噪声的敏感性,可以提高生成图像的可控性和多样性,从而提升用户体验。

📄 摘要(原文)

Generative distillation significantly accelerates text-to-image (T2I) generation by compressing multi-step trajectories into few-step student models while preserving perceptual quality. However, existing methods primarily optimize efficiency and output fidelity, often neglecting critical properties of the original trajectory. In this work, we identify a key missing property: sensitivity to initial noise, whose degradation impairs downstream control methods relying on noise-based optimization and manipulation. We trace this issue to standard distillation objectives that enforce pointwise output alignment, inadvertently flattening the input-output landscape and suppressing the teacher's local geometric structure. To address this, we propose Geometry-Aware Distillation (GAD), a sensitivity-preserving framework that aligns the local functional behavior of teacher and student models. Specifically, GAD matches Jacobian-vector products with respect to input noise, enabling the student to reproduce the teacher's differential response to perturbations. Extensive experiments across multiple T2I paradigms and noise-driven control tasks demonstrate that GAD significantly restores sensitivity and improves diversity while maintaining high visual fidelity. Code is available at https://github.com/Hannah1102/GAD.