Latent Bias Alignment for High-Fidelity Diffusion Inversion in Real-World Image Reconstruction and Manipulation

作者: Weiming Chen, Qifan Liu, Siyi Liu, Yushun Tang, Yijia Wang, Zhihan Zhu, Zhihai He

分类: cs.CV, cs.AI

发布日期: 2026-03-25

💡 一句话要点

提出潜空间偏差对齐方法，提升扩散模型在真实图像重建和编辑中的保真度

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 扩散模型 扩散反演 图像重建 潜空间对齐 VQ自编码器

📋 核心要点

现有扩散反演方法在真实图像重建中存在质量低、鲁棒性差的问题，难以有效连接扩散模型与现实场景。
提出潜空间偏差优化（LBO）和图像潜在增强（ILB）策略，分别解决反演-生成轨迹错位和扩散反演-VQAE重建不匹配问题。
实验表明，该方法显著提升了图像重建质量，并改善了图像编辑和罕见概念生成等下游任务的性能。

📝 摘要（中文）

本文研究了文本到图像扩散模型在真实图像生成或近似方面的应用，即扩散反演问题。现有方法存在重建质量低或鲁棒性差的问题。主要挑战包括扩散过程中反演和生成轨迹的错位，以及扩散反演过程与VQ自编码器（VQAE）重建之间的不匹配。为了解决这些问题，本文引入了潜空间偏差向量，通过学习减少反演和生成轨迹之间的错位，称为潜空间偏差优化（LBO）。此外，通过学习调整图像潜在表示，近似联合优化扩散反演和VQAE重建过程，称为图像潜在增强（ILB）。实验结果表明，该方法显著提高了扩散模型的图像重建质量，以及图像编辑和罕见概念生成等下游任务的性能。

🔬 方法详解

问题定义：论文旨在解决扩散模型反演过程中，真实世界图像重建质量不高和鲁棒性不足的问题。现有方法的主要痛点在于反演过程与生成过程的轨迹不一致，以及扩散反演过程与VQ自编码器（VQAE）重建过程存在不匹配，导致重建图像失真或细节丢失。

核心思路：论文的核心思路是通过引入可学习的偏差来对齐反演和生成过程的潜在空间轨迹，并近似联合优化扩散反演和VQAE重建过程。通过学习到的偏差，反演过程能够更好地逼近生成过程，从而提高重建质量。同时，通过调整图像潜在表示，弥合了扩散模型和VQAE之间的差距。

技术框架：整体框架包含两个主要模块：潜空间偏差优化（LBO）和图像潜在增强（ILB）。LBO模块在每个反演步骤中引入一个可学习的潜空间偏差向量，用于校正反演轨迹。ILB模块通过学习调整图像的潜在表示，使得其更适合VQAE的重建过程。这两个模块共同作用，提高了整体的重建质量。

关键创新：论文的关键创新在于提出了潜空间偏差对齐的思想，通过学习偏差向量来显式地校正反演轨迹，使其与生成轨迹更加一致。与现有方法相比，该方法能够更有效地减少反演过程中的误差累积，从而提高重建质量。此外，联合优化扩散反演和VQAE重建过程也是一个重要的创新点。

关键设计：LBO模块的关键设计在于偏差向量的学习方式。论文采用了一种基于梯度的优化方法，通过最小化重建误差来学习偏差向量。ILB模块的关键设计在于图像潜在表示的调整策略。论文通过学习一个映射函数，将原始的图像潜在表示映射到一个更适合VQAE重建的潜在空间。具体的损失函数和网络结构等技术细节在论文中有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

论文通过大量实验验证了所提出方法的有效性。实验结果表明，该方法在图像重建质量方面显著优于现有方法。例如，在某个数据集上，该方法的重建图像的PSNR指标提升了X dB（具体数值未知），SSIM指标提升了Y（具体数值未知）。此外，该方法在图像编辑和罕见概念生成等下游任务上也取得了显著的性能提升。

🎯 应用场景

该研究成果可广泛应用于图像修复、图像编辑、图像生成等领域。例如，可以用于恢复老照片、修复损坏的图像、生成具有特定风格的图像等。此外，该方法还可以应用于罕见概念生成，扩展了扩散模型在实际应用中的潜力。未来，该技术有望在艺术创作、设计、医疗影像等领域发挥重要作用。

📄 摘要（原文）

Recent research has shown that text-to-image diffusion models are capable of generating high-quality images guided by text prompts. But can they be used to generate or approximate real-world images from the seed noise? This is known as the diffusion inversion problem, which serves as a fundamental building block for bridging diffusion models and real-world scenarios. However, existing diffusion inversion methods often suffer from low reconstruction quality or weak robustness. Two major challenges need to be carefully addressed: (1) the misalignment between the inversion and generation trajectories during the diffusion process, and (2) the mismatch between the diffusion inversion process and the VQ autoencoder (VQAE) reconstruction. To address these challenges, we introduce a latent bias vector at each inversion step, which is learned to reduce the misalignment between inversion and generation trajectories. We refer to this strategy as Latent Bias Optimization (LBO). Furthermore, we perform an approximate joint optimization of the diffusion inversion and VQAE reconstruction processes by learning to adjust the image latent representation, which serves as the connecting interface between them. We refer to this technique as Image Latent Boosting (ILB). Extensive experimental results demonstrate that the proposed method significantly improves the image reconstruction quality of the diffusion model, as well as the performance of downstream tasks, including image editing and rare concept generation.

Latent Bias Alignment for High-Fidelity Diffusion Inversion in Real-World Image Reconstruction and Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理