HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion

作者: Yu He, Lichen Ma, Zipeng Guo, Xinyuan Shan, Jingling Fu, Dong Chen, Junshi Huang, Yan Li

分类: cs.CV

发布日期: 2026-05-15

💡 一句话要点

HyperDiT：通过超连接Transformer实现高保真像素空间扩散模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 图像生成 Transformer 跨尺度交互 位置编码

📋 核心要点

现有像素空间扩散模型在全局语义捕获和高保真细节生成之间存在“粒度困境”。
HyperDiT通过超连接的跨尺度交互，利用Cross-Attention和SA-RoPE，桥接语义和像素流形。
实验表明，HyperDiT在ImageNet 256x256上实现了1.56的FID，显著提升了图像生成质量。

📝 摘要（中文）

像素空间扩散模型绕过了变分自编码器(VAEs)的重建瓶颈，但面临着一个根本性的“粒度困境”：捕获全局语义信息需要较大的patch尺度，而生成高保真细节则需要细粒度的输入。为了解决这个问题，我们提出了HyperDiT，一个统一的框架，它建立了超连接的跨尺度交互，以桥接语义和像素流形。与通过AdaLN注入语义不同，HyperDiT利用Cross-Attention机制，使细粒度的tokens能够全局查询多层次的语义锚点。为了解决多尺度交互中的空间不匹配问题，我们引入了尺度感知旋转位置编码(SA-RoPE)，以确保不同patch大小的tokens之间的精确几何对齐。此外，我们还加入了Registers来学习来自预训练视觉基础模型(VFM)的密集语义，有效地减少了生成幻觉和伪影。大量的实验表明，HyperDiT在ImageNet 256x256上直接在像素空间内实现了最先进的(SoTA) FID，达到了1.56。通过将细粒度流与语义指导相结合，HyperDiT为高保真像素生成提供了一种卓越的范例。

🔬 方法详解

问题定义：像素空间扩散模型虽然避免了VAE的重建瓶颈，但面临着如何同时兼顾全局语义理解和局部细节生成的问题。现有方法要么侧重于全局信息而损失细节，要么侧重于细节而缺乏全局一致性，无法实现高保真图像生成。

核心思路：HyperDiT的核心思路是通过建立跨尺度的超连接，让不同尺度的特征能够相互交互，从而在全局语义的指导下生成精细的局部细节。具体来说，就是让细粒度的像素特征能够查询多尺度的语义信息，并利用尺度感知的旋转位置编码来对齐不同尺度的特征。

技术框架：HyperDiT的整体框架是一个Transformer结构，主要包含以下几个模块：1) 多尺度特征提取模块，用于提取不同尺度的图像特征；2) Cross-Attention模块，用于让细粒度的像素特征查询多尺度的语义信息；3) Scale-Aware Rotary Position Embedding (SA-RoPE)模块，用于对齐不同尺度的特征；4) Registers模块，用于从预训练视觉基础模型(VFM)学习密集语义。

关键创新：HyperDiT的关键创新在于以下几点：1) 提出了超连接的跨尺度交互机制，使得不同尺度的特征能够充分交互；2) 引入了Scale-Aware Rotary Position Embedding (SA-RoPE)，解决了多尺度特征对齐的问题；3) 利用Registers从预训练VFM学习密集语义，减少了生成幻觉和伪影。

关键设计：SA-RoPE的设计是关键。它在旋转位置编码的基础上，引入了尺度因子，使得不同尺度的特征能够进行精确的几何对齐。Cross-Attention模块中，query来自细粒度的像素特征，key和value来自多尺度的语义特征。Registers模块通过学习预训练VFM的特征，为生成过程提供更强的语义指导。

🖼️ 关键图片

📊 实验亮点

HyperDiT在ImageNet 256x256数据集上取得了显著的成果，实现了1.56的FID，超越了现有的最先进方法。这表明HyperDiT能够有效地解决像素空间扩散模型中的“粒度困境”，生成高保真、高质量的图像。实验结果充分验证了HyperDiT的有效性和优越性。

🎯 应用场景

HyperDiT具有广泛的应用前景，包括图像生成、图像编辑、超分辨率重建等。它可以用于生成逼真的人像、风景、艺术作品等，也可以用于修复图像中的缺失部分或提高图像的分辨率。该研究的突破将推动计算机视觉和人工智能领域的发展，为创造更智能、更逼真的图像生成系统奠定基础。

📄 摘要（原文）

Pixel-space diffusion models bypass the reconstruction bottleneck of Variational Autoencoders (VAEs) but face a fundamental "granularity dilemma": capturing global semantics favors large patch scales, while generating high-fidelity details demands fine-grained inputs. To address this issue, we propose HyperDiT, a unified framework establishing Hyper-Connected Cross-Scale Interactions to bridge the semantic and pixel manifold. Diverging from injecting semantics by AdaLN, HyperDiT utilizes Cross-Attention mechanisms, enabling fine-grained tokens to query multi-level semantic anchors globally. To resolve the spatial mismatch during multi-scale interactions, we introduce Scale-Aware Rotary Position Embedding (SA-RoPE) to ensure precise geometric alignment among tokens of varying patch sizes. Furthermore, we incorporate Registers to learn the dense semantics from a pretrained Visual Foundation Model (VFM), effectively reducing generation hallucination and artifacts. Extensive experiments demonstrate that HyperDiT achieves state-of-the-art (SoTA) FID of $\mathbf{1.56}$ on ImageNet $256\times256$ directly within the pixel space. By combining the fine-grained stream with semantic guidance, HyperDiT offers a superior paradigm for high-fidelity pixel generation.

HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理