DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders
作者: Tianhang Wang, Yitong Chen, Wei Song, Zuxuan Wu, Min Li, Jiaqi Wang
分类: cs.CV
发布日期: 2026-05-21
💡 一句话要点
DecQ:通过细节浓缩查询增强表征自编码器的重建与生成能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表征自编码器 视觉基础模型 细节重建 图像生成 潜在扩散模型
📋 核心要点
- 现有表征自编码器依赖冻结的视觉基础模型,重建能力受限,难以兼顾生成质量和细节重建。
- DecQ引入细节浓缩查询,从视觉基础模型的中间层提取细粒度信息,辅助解码器进行重建和生成。
- 实验表明,DecQ在计算量增加很小的情况下,显著提升了重建质量和生成速度,并降低了FID。
📝 摘要(中文)
表征自编码器(RAEs)利用冻结的视觉基础模型(VFMs)作为tokenizer编码器,提供鲁棒的高级表征,从而促进潜在扩散模型中的快速收敛和高质量生成。然而,冻结VFM固有地限制了其空间重建能力,限制了细粒度生成和图像编辑;相反,通过微调引入面向重建的信号会扰乱预训练的语义空间并降低生成保真度。为了解决这种权衡,我们提出了DecQ,一个简单而有效的RAE框架。具体来说,DecQ引入了轻量级的细节浓缩查询,通过冷凝器模块从中间VFM特征中提取细粒度信息。这些查询被整合到解码器中以支持重建,并在生成建模期间与patch tokens联合生成。通过聚合来自浅层和深层的信息,DecQ有效地缓解了重建-生成之间的权衡,提高了重建质量和生成性能。实验表明:(1)仅使用8个额外的查询和3.9%的额外计算量,DecQ改进了基于冻结DINOv2的RAE的重建,将PSNR从19.13 dB提高到22.76 dB;(2)对于生成建模,DecQ实现了比RAE快3.3倍的收敛速度,在无引导的情况下达到1.41的FID,在有引导的情况下达到1.05的FID。
🔬 方法详解
问题定义:现有的表征自编码器(RAEs)依赖于冻结的视觉基础模型(VFMs)作为编码器,虽然能够提供鲁棒的语义表征并加速生成过程,但由于VFM的参数被冻结,其空间重建能力受到限制,导致生成图像的细节不足,图像编辑能力也受到影响。如果对VFM进行微调以提升重建能力,又会破坏其预训练的语义空间,从而降低生成图像的质量。因此,如何在重建质量和生成质量之间取得平衡是一个关键问题。
核心思路:DecQ的核心思路是通过引入轻量级的细节浓缩查询(Detail-Condensing Queries)来增强RAE的重建能力,同时避免对VFM进行微调。这些查询从VFM的中间层提取细粒度信息,并将其融入到解码器中,从而在不影响VFM语义表征能力的前提下,提升重建质量。这样设计的目的是解耦语义表征和细节重建,使得模型能够同时保持良好的生成质量和细节重建能力。
技术框架:DecQ的整体框架包括一个冻结的VFM编码器、细节浓缩查询模块和一个解码器。VFM负责提取图像的语义特征,细节浓缩查询模块从VFM的中间层提取细粒度信息,解码器则利用语义特征和细节信息重建图像或生成新的图像。在训练过程中,细节浓缩查询模块和解码器会被联合优化,以实现更好的重建和生成效果。
关键创新:DecQ的关键创新在于引入了细节浓缩查询,这是一种轻量级的模块,能够从VFM的中间层提取细粒度信息,并将其融入到解码器中。与直接微调VFM相比,这种方法能够更好地平衡重建质量和生成质量。此外,DecQ还通过联合训练细节浓缩查询模块和解码器,进一步提升了模型的性能。
关键设计:DecQ的关键设计包括以下几个方面:细节浓缩查询的数量通常较少(例如8个),以保持计算效率;细节浓缩查询模块使用冷凝器模块(condenser modules)从VFM的中间层提取信息;解码器使用Transformer结构,能够有效地融合语义特征和细节信息;损失函数包括重建损失和生成对抗损失,以保证重建质量和生成质量。
🖼️ 关键图片
📊 实验亮点
DecQ在重建任务中,仅增加3.9%的计算量,就将基于冻结DINOv2的RAE的PSNR从19.13 dB提升至22.76 dB。在生成任务中,DecQ比RAE快3.3倍收敛,无引导生成FID达到1.41,有引导生成FID达到1.05。这些结果表明DecQ在重建质量和生成效率方面均有显著提升。
🎯 应用场景
DecQ技术可应用于图像生成、图像编辑、图像修复等领域。例如,可以用于生成具有丰富细节的高分辨率图像,对图像进行局部编辑,或者修复图像中的缺失部分。该技术在艺术创作、游戏开发、虚拟现实等领域具有广泛的应用前景,能够提升用户体验和创作效率。
📄 摘要(原文)
Representation Autoencoders (RAEs) leverage frozen vision foundation models (VFMs) as tokenizer encoders, providing robust high-level representations that facilitate fast convergence and high-quality generation in latent diffusion models. However, freezing the VFM inherently constrains its spatial reconstruction capacity, limiting fine-grained generation and image editing; in contrast, incorporating reconstruction-oriented signals via fine-tuning disrupts the pretrained semantic space and degrades generative fidelity. To address this trade-off, we propose DecQ, a simple yet effective framework for RAEs. Specifically, DecQ introduces lightweight detail-condensing queries that extract fine-grained information from intermediate VFM features through condenser modules. These queries are incorporated into the decoder to support reconstruction and are jointly generated with patch tokens during generative modeling. By aggregating information from both shallow and deep layers, DecQ effectively mitigates the reconstruction--generation trade-off, improving both reconstruction quality and generative performance. Our experiments demonstrate that: (1) with only 8 additional queries and 3.9% extra computation, DecQ improves reconstruction over the frozen DINOv2-based RAE, increasing PSNR from 19.13 dB to 22.76 dB; and (2) for generative modeling, DecQ achieves 3.3$\times$ faster convergence than RAE, attaining an FID of 1.41 without guidance and 1.05 with guidance.