RaPD: Resolution-Agnostic Pixel Diffusion via Semantics-Enriched Implicit Representations

作者: Yanhao Ge, Shanyan Guan, Weihao Wang, Ying Tai, Mingyu You

分类: cs.CV, cs.AI

发布日期: 2026-05-15

💡 一句话要点

提出RaPD：通过语义增强隐式表示实现分辨率无关的像素扩散模型

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 像素扩散模型 神经图像场 连续表示 分辨率无关 语义引导

📋 核心要点

现有生成模型在离散网格上生成图像，限制了分辨率的灵活性，无法充分利用图像的连续性。
RaPD在连续神经图像场（NIF）的潜在空间中进行扩散，利用语义表示引导和坐标查询注意力渲染器，实现生成感知的潜在学习。
实验结果表明，RaPD在生成质量和分辨率可扩展性方面表现出色，能够以任意分辨率渲染图像。

📝 摘要（中文）

自然图像是连续的，但大多数生成模型在离散网格上合成它们，限制了分辨率灵活的生成。连续神经场实现了无分辨率渲染，但现有方法仅在解码阶段引入连续性作为插值模块，使生成潜在空间离散化且面向重建。我们提出了RaPD（Resolution-agnostic Pixel Diffusion），它在连续神经图像场（NIF）潜在空间中执行扩散。RaPD通过用于生成感知潜在学习的语义表示引导和用于坐标条件、尺度感知渲染的坐标查询注意力渲染器，弥合了重建-生成差距。通过仅更改查询坐标，单个去噪潜在变量可以以任意分辨率渲染，从而保持扩散成本不变。实验表明了卓越的生成质量和分辨率可扩展性。

🔬 方法详解

问题定义：现有生成模型通常在离散像素网格上操作，这限制了它们生成任意分辨率图像的能力。虽然连续神经场（CNF）可以实现无分辨率渲染，但现有方法通常只在解码阶段引入连续性，导致潜在空间仍然是离散的，并且主要面向图像重建，而非生成。因此，如何设计一个能够在连续潜在空间中进行扩散，并能生成任意分辨率图像的模型是一个关键问题。

核心思路：RaPD的核心思路是在连续的神经图像场（NIF）潜在空间中执行扩散过程。通过将图像表示为连续函数，模型可以避免离散网格的限制，从而实现分辨率无关的图像生成。此外，RaPD引入了语义表示引导，以确保潜在空间能够更好地捕捉图像的语义信息，从而提高生成质量。

技术框架：RaPD的整体框架包括以下几个主要模块：1) 编码器：将输入图像编码到NIF潜在空间中。2) 扩散过程：在NIF潜在空间中进行扩散和去噪操作。3) 语义表示引导：利用语义信息来引导潜在空间的学习。4) 坐标查询注意力渲染器：根据给定的坐标，从NIF潜在空间中渲染出对应像素的值。整个流程首先将图像编码到连续的潜在空间，然后在该空间中进行扩散，最后通过坐标查询渲染生成任意分辨率的图像。

关键创新：RaPD的关键创新在于以下几点：1) 在连续的NIF潜在空间中进行扩散，克服了离散网格的限制。2) 引入了语义表示引导，提高了生成质量。3) 提出了坐标查询注意力渲染器，实现了坐标条件、尺度感知的渲染。与现有方法相比，RaPD能够生成任意分辨率的图像，并且具有更好的生成质量和可扩展性。

关键设计：RaPD的关键设计包括：1) 语义表示引导：使用预训练的语义分割模型提取图像的语义信息，并将其融入到潜在空间的学习中。2) 坐标查询注意力渲染器：使用注意力机制来选择与给定坐标相关的潜在向量，从而实现坐标条件的渲染。3) 损失函数：使用扩散模型的标准损失函数，并结合语义一致性损失来优化模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RaPD在图像生成质量和分辨率可扩展性方面优于现有方法。具体来说，RaPD能够在多个数据集上生成高质量的图像，并且可以轻松地生成任意分辨率的图像。与基线方法相比，RaPD在FID等指标上取得了显著的提升，证明了其优越的性能。

🎯 应用场景

RaPD具有广泛的应用前景，包括图像超分辨率、图像编辑、图像生成等。它可以用于生成任意分辨率的高质量图像，例如用于游戏、电影等领域。此外，RaPD还可以用于图像修复和图像插值等任务，具有很高的实际应用价值。未来，RaPD可以进一步扩展到视频生成等领域。

📄 摘要（原文）

Natural images are continuous, yet most generative models synthesize them on discrete grids, limiting resolution-flexible generation. Continuous neural fields enable resolution-free rendering, but prior methods introduce continuity only at the decoding stage as an interpolation module, leaving the generative latent space discretized and reconstruction-oriented. We propose RaPD (Resolution-agnostic Pixel Diffusion), which performs diffusion in a continuous Neural Image Field (NIF) latent space. RaPD bridges this reconstruction-generation gap with Semantic Representation Guidance for generation-aware latent learning and a Coordinate-Queried Attention Renderer for coordinate-conditioned, scale-aware rendering. A single denoised latent can be rendered at arbitrary resolutions by changing only the query coordinates, keeping diffusion cost fixed. Experiments demonstrate superior generation quality and resolution scalability.

RaPD: Resolution-Agnostic Pixel Diffusion via Semantics-Enriched Implicit Representations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理