HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion
作者: Yu He, Lichen Ma, Zipeng Guo, Xinyuan Shan, Jingling Fu, Dong Chen, Junshi Huang, Yan Li
分类: cs.CV
发布日期: 2026-05-15
💡 一句话要点
HyperDiT:通过超连接Transformer实现高保真像素空间扩散模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 图像生成 Transformer 跨尺度交互 位置编码
📋 核心要点
- 现有像素空间扩散模型在全局语义捕获和高保真细节生成之间存在“粒度困境”。
- HyperDiT通过超连接的跨尺度交互,利用Cross-Attention和SA-RoPE,桥接语义和像素流形。
- 实验表明,HyperDiT在ImageNet 256x256上实现了1.56的FID,显著提升了图像生成质量。
📝 摘要(中文)
像素空间扩散模型绕过了变分自编码器(VAEs)的重建瓶颈,但面临着一个根本性的“粒度困境”:捕获全局语义信息需要较大的patch尺度,而生成高保真细节则需要细粒度的输入。为了解决这个问题,我们提出了HyperDiT,一个统一的框架,它建立了超连接的跨尺度交互,以桥接语义和像素流形。与通过AdaLN注入语义不同,HyperDiT利用Cross-Attention机制,使细粒度的tokens能够全局查询多层次的语义锚点。为了解决多尺度交互中的空间不匹配问题,我们引入了尺度感知旋转位置编码(SA-RoPE),以确保不同patch大小的tokens之间的精确几何对齐。此外,我们还加入了Registers来学习来自预训练视觉基础模型(VFM)的密集语义,有效地减少了生成幻觉和伪影。大量的实验表明,HyperDiT在ImageNet 256x256上直接在像素空间内实现了最先进的(SoTA) FID,达到了1.56。通过将细粒度流与语义指导相结合,HyperDiT为高保真像素生成提供了一种卓越的范例。
🔬 方法详解
问题定义:像素空间扩散模型虽然避免了VAE的重建瓶颈,但面临着如何同时兼顾全局语义理解和局部细节生成的问题。现有方法要么侧重于全局信息而损失细节,要么侧重于细节而缺乏全局一致性,无法实现高保真图像生成。
核心思路:HyperDiT的核心思路是通过建立跨尺度的超连接,让不同尺度的特征能够相互交互,从而在全局语义的指导下生成精细的局部细节。具体来说,就是让细粒度的像素特征能够查询多尺度的语义信息,并利用尺度感知的旋转位置编码来对齐不同尺度的特征。
技术框架:HyperDiT的整体框架是一个Transformer结构,主要包含以下几个模块:1) 多尺度特征提取模块,用于提取不同尺度的图像特征;2) Cross-Attention模块,用于让细粒度的像素特征查询多尺度的语义信息;3) Scale-Aware Rotary Position Embedding (SA-RoPE)模块,用于对齐不同尺度的特征;4) Registers模块,用于从预训练视觉基础模型(VFM)学习密集语义。
关键创新:HyperDiT的关键创新在于以下几点:1) 提出了超连接的跨尺度交互机制,使得不同尺度的特征能够充分交互;2) 引入了Scale-Aware Rotary Position Embedding (SA-RoPE),解决了多尺度特征对齐的问题;3) 利用Registers从预训练VFM学习密集语义,减少了生成幻觉和伪影。
关键设计:SA-RoPE的设计是关键。它在旋转位置编码的基础上,引入了尺度因子,使得不同尺度的特征能够进行精确的几何对齐。Cross-Attention模块中,query来自细粒度的像素特征,key和value来自多尺度的语义特征。Registers模块通过学习预训练VFM的特征,为生成过程提供更强的语义指导。
🖼️ 关键图片
📊 实验亮点
HyperDiT在ImageNet 256x256数据集上取得了显著的成果,实现了1.56的FID,超越了现有的最先进方法。这表明HyperDiT能够有效地解决像素空间扩散模型中的“粒度困境”,生成高保真、高质量的图像。实验结果充分验证了HyperDiT的有效性和优越性。
🎯 应用场景
HyperDiT具有广泛的应用前景,包括图像生成、图像编辑、超分辨率重建等。它可以用于生成逼真的人像、风景、艺术作品等,也可以用于修复图像中的缺失部分或提高图像的分辨率。该研究的突破将推动计算机视觉和人工智能领域的发展,为创造更智能、更逼真的图像生成系统奠定基础。
📄 摘要(原文)
Pixel-space diffusion models bypass the reconstruction bottleneck of Variational Autoencoders (VAEs) but face a fundamental "granularity dilemma": capturing global semantics favors large patch scales, while generating high-fidelity details demands fine-grained inputs. To address this issue, we propose HyperDiT, a unified framework establishing Hyper-Connected Cross-Scale Interactions to bridge the semantic and pixel manifold. Diverging from injecting semantics by AdaLN, HyperDiT utilizes Cross-Attention mechanisms, enabling fine-grained tokens to query multi-level semantic anchors globally. To resolve the spatial mismatch during multi-scale interactions, we introduce Scale-Aware Rotary Position Embedding (SA-RoPE) to ensure precise geometric alignment among tokens of varying patch sizes. Furthermore, we incorporate Registers to learn the dense semantics from a pretrained Visual Foundation Model (VFM), effectively reducing generation hallucination and artifacts. Extensive experiments demonstrate that HyperDiT achieves state-of-the-art (SoTA) FID of $\mathbf{1.56}$ on ImageNet $256\times256$ directly within the pixel space. By combining the fine-grained stream with semantic guidance, HyperDiT offers a superior paradigm for high-fidelity pixel generation.