V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising
作者: Han Lin, Xichen Pan, Zun Wang, Yue Zhang, Chu Wang, Jaemin Cho, Mohit Bansal
分类: cs.CV, cs.AI
发布日期: 2026-03-17
备注: code: https://github.com/HL-hanlin/V-Co
💡 一句话要点
V-Co:通过协同去噪更深入地研究视觉表征对齐,提升像素空间扩散模型性能。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 视觉表征对齐 协同去噪 像素空间扩散模型 图像生成 深度学习
📋 核心要点
- 现有像素空间扩散模型缺乏足够的语义监督,难以捕捉高层视觉结构,限制了生成质量。
- V-Co通过系统研究视觉协同去噪,分离出四个关键要素,为有效利用预训练视觉特征提供了指导。
- 实验表明,V-Co在ImageNet-256上优于现有像素空间扩散模型,且训练所需epoch更少。
📝 摘要(中文)
像素空间扩散模型最近作为一种强大的替代方案重新出现,取代了潜在扩散模型,无需预训练自编码器即可实现高质量生成。然而,标准的像素空间扩散模型接收到的语义监督相对较弱,并且没有明确设计来捕获高层视觉结构。最近的表征对齐方法(例如,REPA)表明,预训练的视觉特征可以显著改善扩散训练,而视觉协同去噪已成为将此类特征纳入生成过程的一个有希望的方向。然而,现有的协同去噪方法通常会纠缠多个设计选择,从而不清楚哪些设计选择是真正必不可少的。因此,我们提出了V-Co,一个在统一的基于JiT的框架中对视觉协同去噪进行系统研究。这种受控设置使我们能够分离出使视觉协同去噪有效的要素。我们的研究揭示了有效视觉协同去噪的四个关键要素。首先,在实现灵活的跨流交互的同时,保留特定于特征的计算,从而激发了完全双流架构。其次,有效的无分类器指导(CFG)需要结构上定义的无条件预测。第三,更强的语义监督最好由感知漂移混合损失提供。第四,稳定的协同去噪还需要适当的跨流校准,我们通过基于RMS的特征重新缩放来实现。总之,这些发现为视觉协同去噪提供了一个简单的配方。在ImageNet-256上的实验表明,在可比的模型尺寸下,V-Co优于底层像素空间扩散基线和强大的先前像素扩散方法,同时使用更少的训练epoch,为未来的表征对齐生成模型提供了实践指导。
🔬 方法详解
问题定义:现有像素空间扩散模型在生成高质量图像时,缺乏足够的语义信息指导,导致生成结果在高层视觉结构上表现不佳。现有的协同去噪方法设计复杂,难以确定哪些设计选择是真正有效的。
核心思路:V-Co的核心思路是通过系统性的实验研究,解耦现有协同去噪方法中的各种设计选择,从而找出影响性能的关键因素,并提出一个简单有效的视觉协同去噪方案。通过可控的实验环境,探究不同设计对模型性能的影响。
技术框架:V-Co采用双流架构,分别处理图像像素和预训练视觉特征。整体流程包括:1)对图像和视觉特征进行加噪;2)使用双流网络进行协同去噪,其中一个流处理加噪图像,另一个流处理加噪视觉特征;3)通过感知漂移混合损失和RMS特征重缩放进行优化和校准。
关键创新:V-Co的关键创新在于:1)提出了一个完全双流架构,在保留特征特定计算的同时,允许灵活的跨流交互;2)提出了一个结构上定义的无条件预测,用于有效的无分类器指导;3)提出了一个感知漂移混合损失,提供更强的语义监督;4)提出了基于RMS的特征重缩放,实现稳定的协同去噪。
关键设计:V-Co的关键设计包括:1)双流网络的具体结构,例如卷积层、注意力机制等;2)感知漂移混合损失的具体形式,如何平衡像素空间损失和特征空间损失;3)RMS特征重缩放的具体实现,如何根据RMS值调整特征尺度;4)无分类器指导中,无条件预测的具体实现方式。
🖼️ 关键图片
📊 实验亮点
V-Co在ImageNet-256数据集上取得了显著的性能提升,优于底层像素空间扩散基线和强大的先前像素扩散方法。在模型尺寸相当的情况下,V-Co使用更少的训练epoch,表明其具有更高的训练效率和更好的泛化能力。这些实验结果验证了V-Co提出的关键要素的有效性。
🎯 应用场景
V-Co的研究成果可应用于图像生成、图像编辑、视频生成等领域。通过有效利用预训练视觉特征,可以生成更逼真、更符合语义结构的图像和视频。该研究为未来表征对齐生成模型提供了实践指导,有助于推动相关技术的发展。
📄 摘要(原文)
Pixel-space diffusion has recently re-emerged as a strong alternative to latent diffusion, enabling high-quality generation without pretrained autoencoders. However, standard pixel-space diffusion models receive relatively weak semantic supervision and are not explicitly designed to capture high-level visual structure. Recent representation-alignment methods (e.g., REPA) suggest that pretrained visual features can substantially improve diffusion training, and visual co-denoising has emerged as a promising direction for incorporating such features into the generative process. However, existing co-denoising approaches often entangle multiple design choices, making it unclear which design choices are truly essential. Therefore, we present V-Co, a systematic study of visual co-denoising in a unified JiT-based framework. This controlled setting allows us to isolate the ingredients that make visual co-denoising effective. Our study reveals four key ingredients for effective visual co-denoising. First, preserving feature-specific computation while enabling flexible cross-stream interaction motivates a fully dual-stream architecture. Second, effective classifier-free guidance (CFG) requires a structurally defined unconditional prediction. Third, stronger semantic supervision is best provided by a perceptual-drifting hybrid loss. Fourth, stable co-denoising further requires proper cross-stream calibration, which we realize through RMS-based feature rescaling. Together, these findings yield a simple recipe for visual co-denoising. Experiments on ImageNet-256 show that, at comparable model sizes, V-Co outperforms the underlying pixel-space diffusion baseline and strong prior pixel-diffusion methods while using fewer training epochs, offering practical guidance for future representation-aligned generative models.