RaPD: Resolution-Agnostic Pixel Diffusion via Semantics-Enriched Implicit Representations
作者: Yanhao Ge, Shanyan Guan, Weihao Wang, Ying Tai, Mingyu You
分类: cs.CV, cs.AI
发布日期: 2026-05-15
💡 一句话要点
提出RaPD:通过语义增强隐式表示实现分辨率无关的像素扩散模型
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 像素扩散模型 神经图像场 连续表示 分辨率无关 语义引导
📋 核心要点
- 现有生成模型在离散网格上生成图像,限制了分辨率的灵活性,无法充分利用图像的连续性。
- RaPD在连续神经图像场(NIF)的潜在空间中进行扩散,利用语义表示引导和坐标查询注意力渲染器,实现生成感知的潜在学习。
- 实验结果表明,RaPD在生成质量和分辨率可扩展性方面表现出色,能够以任意分辨率渲染图像。
📝 摘要(中文)
自然图像是连续的,但大多数生成模型在离散网格上合成它们,限制了分辨率灵活的生成。连续神经场实现了无分辨率渲染,但现有方法仅在解码阶段引入连续性作为插值模块,使生成潜在空间离散化且面向重建。我们提出了RaPD(Resolution-agnostic Pixel Diffusion),它在连续神经图像场(NIF)潜在空间中执行扩散。RaPD通过用于生成感知潜在学习的语义表示引导和用于坐标条件、尺度感知渲染的坐标查询注意力渲染器,弥合了重建-生成差距。通过仅更改查询坐标,单个去噪潜在变量可以以任意分辨率渲染,从而保持扩散成本不变。实验表明了卓越的生成质量和分辨率可扩展性。
🔬 方法详解
问题定义:现有生成模型通常在离散像素网格上操作,这限制了它们生成任意分辨率图像的能力。虽然连续神经场(CNF)可以实现无分辨率渲染,但现有方法通常只在解码阶段引入连续性,导致潜在空间仍然是离散的,并且主要面向图像重建,而非生成。因此,如何设计一个能够在连续潜在空间中进行扩散,并能生成任意分辨率图像的模型是一个关键问题。
核心思路:RaPD的核心思路是在连续的神经图像场(NIF)潜在空间中执行扩散过程。通过将图像表示为连续函数,模型可以避免离散网格的限制,从而实现分辨率无关的图像生成。此外,RaPD引入了语义表示引导,以确保潜在空间能够更好地捕捉图像的语义信息,从而提高生成质量。
技术框架:RaPD的整体框架包括以下几个主要模块:1) 编码器:将输入图像编码到NIF潜在空间中。2) 扩散过程:在NIF潜在空间中进行扩散和去噪操作。3) 语义表示引导:利用语义信息来引导潜在空间的学习。4) 坐标查询注意力渲染器:根据给定的坐标,从NIF潜在空间中渲染出对应像素的值。整个流程首先将图像编码到连续的潜在空间,然后在该空间中进行扩散,最后通过坐标查询渲染生成任意分辨率的图像。
关键创新:RaPD的关键创新在于以下几点:1) 在连续的NIF潜在空间中进行扩散,克服了离散网格的限制。2) 引入了语义表示引导,提高了生成质量。3) 提出了坐标查询注意力渲染器,实现了坐标条件、尺度感知的渲染。与现有方法相比,RaPD能够生成任意分辨率的图像,并且具有更好的生成质量和可扩展性。
关键设计:RaPD的关键设计包括:1) 语义表示引导:使用预训练的语义分割模型提取图像的语义信息,并将其融入到潜在空间的学习中。2) 坐标查询注意力渲染器:使用注意力机制来选择与给定坐标相关的潜在向量,从而实现坐标条件的渲染。3) 损失函数:使用扩散模型的标准损失函数,并结合语义一致性损失来优化模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RaPD在图像生成质量和分辨率可扩展性方面优于现有方法。具体来说,RaPD能够在多个数据集上生成高质量的图像,并且可以轻松地生成任意分辨率的图像。与基线方法相比,RaPD在FID等指标上取得了显著的提升,证明了其优越的性能。
🎯 应用场景
RaPD具有广泛的应用前景,包括图像超分辨率、图像编辑、图像生成等。它可以用于生成任意分辨率的高质量图像,例如用于游戏、电影等领域。此外,RaPD还可以用于图像修复和图像插值等任务,具有很高的实际应用价值。未来,RaPD可以进一步扩展到视频生成等领域。
📄 摘要(原文)
Natural images are continuous, yet most generative models synthesize them on discrete grids, limiting resolution-flexible generation. Continuous neural fields enable resolution-free rendering, but prior methods introduce continuity only at the decoding stage as an interpolation module, leaving the generative latent space discretized and reconstruction-oriented. We propose RaPD (Resolution-agnostic Pixel Diffusion), which performs diffusion in a continuous Neural Image Field (NIF) latent space. RaPD bridges this reconstruction-generation gap with Semantic Representation Guidance for generation-aware latent learning and a Coordinate-Queried Attention Renderer for coordinate-conditioned, scale-aware rendering. A single denoised latent can be rendered at arbitrary resolutions by changing only the query coordinates, keeping diffusion cost fixed. Experiments demonstrate superior generation quality and resolution scalability.