Pixal3D: Pixel-Aligned 3D Generation from Images

作者: Dong-Yang Li, Wang Zhao, Yuxin Chen, Wenbo Hu, Meng-Hao Guo, Fang-Lue Zhang, Ying Shan, Shi-Min Hu

分类: cs.CV

发布日期: 2026-05-11

备注: SIGGRAPH 2026. Project page: https://ldyang694.github.io/projects/pixal3d/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出Pixal3D：一种基于像素对齐的3D生成范式，实现高保真图像到3D资产的转换

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D生成 像素对齐 特征反投影 高保真重建 多视角合成 计算机视觉

📋 核心要点

现有3D生成模型多在规范空间合成，导致像素与3D空间关联模糊，难以保证生成资产与输入图像的像素级一致性。
Pixal3D引入像素反投影条件方案，将多尺度图像特征显式提升至3D特征体，建立了明确的像素到3D对应关系。
实验证明该方法在保持高扩展性的同时，显著提升了生成资产的保真度，并支持多视角生成及高质量场景合成。

📝 摘要（中文）

近年来，3D生成模型在图像到3D合成方面取得了显著进展，提升了几何分辨率与外观真实感。然而，生成资产与输入图像在像素级的一致性（保真度）仍是核心瓶颈。本文认为，这源于隐式的2D-3D对应关系问题：大多数原生3D生成器在规范空间（canonical space）合成形状，并通过注意力机制注入图像线索，导致像素到3D的关联模糊。为解决此问题，受3D重建启发，本文提出了Pixal3D，一种用于高保真3D资产生成的像素对齐范式。Pixal3D不依赖规范姿态，而是直接以像素对齐的方式生成3D内容，确保与输入视角的一致性。通过引入像素反投影条件方案，将多尺度图像特征显式提升至3D特征体，建立了明确的像素到3D对应关系。实验表明，Pixal3D不仅具有可扩展性，且在保真度上接近重建水平，并可自然扩展至多视角生成与场景合成。

🔬 方法详解

问题定义：现有3D生成模型主要在规范空间（Canonical Space）进行形状合成，依赖注意力机制隐式关联图像信息，导致生成结果与输入图像在像素级对应关系上存在模糊性，难以实现高保真度的几何与纹理重建。

核心思路：借鉴3D重建的显式映射思想，Pixal3D摒弃了规范空间生成范式，转而采用像素对齐（Pixel-aligned）的生成策略，确保生成的3D资产在空间位置上与输入图像的像素点直接对应。

技术框架：系统核心在于像素反投影（Pixel Back-projection）模块。该模块将输入图像的多尺度特征图通过相机参数反投影至3D空间，构建出一个显式的3D特征体（Feature Volume），作为生成器的条件输入，从而引导模型在特定视角下生成几何与外观。

关键创新：最大的创新在于将“生成”过程转化为“显式投影”过程。通过建立像素到3D特征体的直接映射，模型不再需要通过注意力机制去“猜测”像素与3D点的关系，从而从根本上解决了保真度瓶颈。

关键设计：采用了多尺度特征提取器以捕获不同层级的语义与细节信息；利用反投影算子将2D特征采样至3D体素网格或点云空间；在训练中通过多视角一致性约束，确保在多视角输入时，不同视角的特征体能够有效聚合，实现全局一致的场景生成。

🖼️ 关键图片

📊 实验亮点

Pixal3D在保真度指标上实现了显著突破，其生成质量接近传统3D重建算法。实验结果显示，该模型在单视角输入下能保持极高的像素一致性，且通过多视角特征聚合，在复杂物体与场景生成任务中表现出优于现有主流生成模型（如基于规范空间的模型）的几何细节与纹理还原能力。

🎯 应用场景

Pixal3D在数字孪生、虚拟现实（VR/AR）内容创作及游戏资产生成领域具有广阔应用前景。其高保真特性使其能够从单张或少量照片快速生成高质量3D模型，大幅降低3D建模成本。此外，该方法在复杂场景合成中的表现，使其成为构建大规模交互式虚拟环境的有力工具。

📄 摘要（原文）

Recent advances in 3D generative models have rapidly improved image-to-3D synthesis quality, enabling higher-resolution geometry and more realistic appearance. Yet fidelity, which measures pixel-level faithfulness of the generated 3D asset to the input image, still remains a central bottleneck. We argue this stems from an implicit 2D-3D correspondence issue: most 3D-native generators synthesize shape in canonical space and inject image cues via attention, leaving pixel-to-3D associations ambiguous. To tackle this issue, we draw inspiration from 3D reconstruction and propose Pixal3D, a pixel-aligned 3D generation paradigm for high-fidelity 3D asset creation from images. Instead of generating in a canonical pose, Pixal3D directly generates 3D in a pixel-aligned way, consistent with the input view. To enable this, we introduce a pixel back-projection conditioning scheme that explicitly lifts multi-scale image features into a 3D feature volume, establishing direct pixel-to-3D correspondence without ambiguity. We show that Pixal3D is not only scalable and capable of producing high-quality 3D assets, but also substantially improves fidelity, approaching the fidelity level of reconstruction. Furthermore, Pixal3D naturally extends to multi-view generation by aggregating back-projected feature volumes across views. Finally, we show pixel-aligned generation benefits scene synthesis, and present a modular pipeline that produces high-fidelity, object-separated 3D scenes from images. Pixal3D for the first time demonstrates 3D-native pixel-aligned generation at scale, and provides a new inspiring way towards high-fidelity 3D generation of object or scene from single or multi-view images. Project page: https://ldyang694.github.io/projects/pixal3d/

Pixal3D: Pixel-Aligned 3D Generation from Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理