Restoring Initial Noise Sensitivity in Text-to-Image Distillation via Geometric Alignment

作者: Huayang Huang, Ruoyu Wang, Jinhui Zhao, Wei Deng, Daiguo Zhou, Jian Luan, Yu Wu, Ye Zhu

分类: cs.CV

发布日期: 2026-06-01

备注: ICML 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出几何感知蒸馏（GAD），恢复文本到图像蒸馏中对初始噪声的敏感性。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 文本到图像生成 生成式蒸馏 噪声敏感性 几何感知 雅可比向量积

📋 核心要点

现有文本到图像蒸馏方法忽略了对初始噪声的敏感性，这会影响下游控制任务的性能。
GAD通过对齐教师和学生模型的局部函数行为，特别是匹配雅可比向量积，来恢复这种敏感性。
实验表明，GAD在保持视觉质量的同时，显著提高了生成图像的多样性和对噪声的敏感性。

📝 摘要（中文）

生成式蒸馏通过将多步轨迹压缩为少步学生模型，在保持感知质量的同时显著加速了文本到图像（T2I）的生成。然而，现有方法主要优化效率和输出保真度，常常忽略了原始轨迹的关键属性。本文发现了一个关键的缺失属性：对初始噪声的敏感性，其退化会损害依赖于基于噪声的优化和操作的下游控制方法。我们将此问题追溯到强制执行逐点输出对齐的标准蒸馏目标，这会无意中展平输入-输出景观并抑制教师模型的局部几何结构。为了解决这个问题，我们提出了几何感知蒸馏（GAD），这是一个保持敏感性的框架，可以对齐教师和学生模型的局部函数行为。具体来说，GAD匹配关于输入噪声的雅可比向量积，使学生能够重现教师模型对扰动的微分响应。跨多个T2I范例和噪声驱动的控制任务的大量实验表明，GAD显著恢复了敏感性并提高了多样性，同时保持了高视觉保真度。

🔬 方法详解

问题定义：现有文本到图像蒸馏方法主要关注生成效率和图像质量，忽略了模型对初始噪声的敏感性。这种敏感性的缺失会严重影响依赖噪声优化的下游任务，例如图像编辑和风格迁移。现有方法通过逐点对齐教师和学生模型的输出，实际上平滑了输入-输出空间，抑制了教师模型的局部几何结构，从而降低了对噪声的敏感性。

核心思路：本文的核心思路是恢复学生模型对初始噪声的敏感性，使其能够更好地模仿教师模型对噪声扰动的响应。通过对齐教师和学生模型在局部几何结构上的行为，即匹配它们对输入噪声的雅可比向量积，可以使学生模型更好地捕捉教师模型的微分响应，从而恢复对噪声的敏感性。

技术框架：GAD (Geometry-Aware Distillation) 框架主要包含以下几个步骤：首先，利用教师模型生成图像；然后，对输入噪声进行微小扰动，并计算教师模型对扰动的响应；接着，计算教师模型和学生模型关于输入噪声的雅可比向量积；最后，通过最小化教师模型和学生模型雅可比向量积之间的差异，来训练学生模型，使其能够更好地模仿教师模型对噪声的响应。

关键创新：GAD的关键创新在于提出了几何感知的蒸馏方法，通过对齐教师和学生模型的局部几何结构，恢复了学生模型对初始噪声的敏感性。与传统的逐点对齐方法不同，GAD关注的是模型在局部空间中的行为，而不是仅仅关注单个点的输出。这种方法能够更好地捕捉教师模型的微分响应，从而提高学生模型的性能。

关键设计：GAD的关键设计在于雅可比向量积的计算和对齐。论文使用了一种高效的计算雅可比向量积的方法，避免了直接计算雅可比矩阵的巨大计算量。此外，论文还设计了一种损失函数，用于衡量教师模型和学生模型雅可比向量积之间的差异。通过最小化该损失函数，可以有效地对齐教师和学生模型的局部几何结构。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GAD在多个文本到图像生成模型上都取得了显著的性能提升。与现有蒸馏方法相比，GAD在恢复对初始噪声的敏感性方面表现更佳，同时保持了较高的图像质量。在噪声驱动的控制任务中，GAD能够生成更多样化和可控的图像，证明了其有效性。

🎯 应用场景

该研究成果可应用于各种文本到图像生成任务，尤其是在需要对生成图像进行精细控制和编辑的场景中。例如，可以用于图像风格迁移、图像修复、个性化图像生成等。通过恢复模型对噪声的敏感性，可以提高生成图像的可控性和多样性，从而提升用户体验。

📄 摘要（原文）

Generative distillation significantly accelerates text-to-image (T2I) generation by compressing multi-step trajectories into few-step student models while preserving perceptual quality. However, existing methods primarily optimize efficiency and output fidelity, often neglecting critical properties of the original trajectory. In this work, we identify a key missing property: sensitivity to initial noise, whose degradation impairs downstream control methods relying on noise-based optimization and manipulation. We trace this issue to standard distillation objectives that enforce pointwise output alignment, inadvertently flattening the input-output landscape and suppressing the teacher's local geometric structure. To address this, we propose Geometry-Aware Distillation (GAD), a sensitivity-preserving framework that aligns the local functional behavior of teacher and student models. Specifically, GAD matches Jacobian-vector products with respect to input noise, enabling the student to reproduce the teacher's differential response to perturbations. Extensive experiments across multiple T2I paradigms and noise-driven control tasks demonstrate that GAD significantly restores sensitivity and improves diversity while maintaining high visual fidelity. Code is available at https://github.com/Hannah1102/GAD.

Restoring Initial Noise Sensitivity in Text-to-Image Distillation via Geometric Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理