Pixal3D: Pixel-Aligned 3D Generation from Images
作者: Dong-Yang Li, Wang Zhao, Yuxin Chen, Wenbo Hu, Meng-Hao Guo, Fang-Lue Zhang, Ying Shan, Shi-Min Hu
分类: cs.CV
发布日期: 2026-05-11
备注: SIGGRAPH 2026. Project page: https://ldyang694.github.io/projects/pixal3d/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出Pixal3D:一种基于像素对齐的3D生成范式,实现高保真图像到3D资产的转换
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D生成 像素对齐 特征反投影 高保真重建 多视角合成 计算机视觉
📋 核心要点
- 现有3D生成模型多在规范空间合成,导致像素与3D空间关联模糊,难以保证生成资产与输入图像的像素级一致性。
- Pixal3D引入像素反投影条件方案,将多尺度图像特征显式提升至3D特征体,建立了明确的像素到3D对应关系。
- 实验证明该方法在保持高扩展性的同时,显著提升了生成资产的保真度,并支持多视角生成及高质量场景合成。
📝 摘要(中文)
近年来,3D生成模型在图像到3D合成方面取得了显著进展,提升了几何分辨率与外观真实感。然而,生成资产与输入图像在像素级的一致性(保真度)仍是核心瓶颈。本文认为,这源于隐式的2D-3D对应关系问题:大多数原生3D生成器在规范空间(canonical space)合成形状,并通过注意力机制注入图像线索,导致像素到3D的关联模糊。为解决此问题,受3D重建启发,本文提出了Pixal3D,一种用于高保真3D资产生成的像素对齐范式。Pixal3D不依赖规范姿态,而是直接以像素对齐的方式生成3D内容,确保与输入视角的一致性。通过引入像素反投影条件方案,将多尺度图像特征显式提升至3D特征体,建立了明确的像素到3D对应关系。实验表明,Pixal3D不仅具有可扩展性,且在保真度上接近重建水平,并可自然扩展至多视角生成与场景合成。
🔬 方法详解
问题定义:现有3D生成模型主要在规范空间(Canonical Space)进行形状合成,依赖注意力机制隐式关联图像信息,导致生成结果与输入图像在像素级对应关系上存在模糊性,难以实现高保真度的几何与纹理重建。
核心思路:借鉴3D重建的显式映射思想,Pixal3D摒弃了规范空间生成范式,转而采用像素对齐(Pixel-aligned)的生成策略,确保生成的3D资产在空间位置上与输入图像的像素点直接对应。
技术框架:系统核心在于像素反投影(Pixel Back-projection)模块。该模块将输入图像的多尺度特征图通过相机参数反投影至3D空间,构建出一个显式的3D特征体(Feature Volume),作为生成器的条件输入,从而引导模型在特定视角下生成几何与外观。
关键创新:最大的创新在于将“生成”过程转化为“显式投影”过程。通过建立像素到3D特征体的直接映射,模型不再需要通过注意力机制去“猜测”像素与3D点的关系,从而从根本上解决了保真度瓶颈。
关键设计:采用了多尺度特征提取器以捕获不同层级的语义与细节信息;利用反投影算子将2D特征采样至3D体素网格或点云空间;在训练中通过多视角一致性约束,确保在多视角输入时,不同视角的特征体能够有效聚合,实现全局一致的场景生成。
🖼️ 关键图片
📊 实验亮点
Pixal3D在保真度指标上实现了显著突破,其生成质量接近传统3D重建算法。实验结果显示,该模型在单视角输入下能保持极高的像素一致性,且通过多视角特征聚合,在复杂物体与场景生成任务中表现出优于现有主流生成模型(如基于规范空间的模型)的几何细节与纹理还原能力。
🎯 应用场景
Pixal3D在数字孪生、虚拟现实(VR/AR)内容创作及游戏资产生成领域具有广阔应用前景。其高保真特性使其能够从单张或少量照片快速生成高质量3D模型,大幅降低3D建模成本。此外,该方法在复杂场景合成中的表现,使其成为构建大规模交互式虚拟环境的有力工具。
📄 摘要(原文)
Recent advances in 3D generative models have rapidly improved image-to-3D synthesis quality, enabling higher-resolution geometry and more realistic appearance. Yet fidelity, which measures pixel-level faithfulness of the generated 3D asset to the input image, still remains a central bottleneck. We argue this stems from an implicit 2D-3D correspondence issue: most 3D-native generators synthesize shape in canonical space and inject image cues via attention, leaving pixel-to-3D associations ambiguous. To tackle this issue, we draw inspiration from 3D reconstruction and propose Pixal3D, a pixel-aligned 3D generation paradigm for high-fidelity 3D asset creation from images. Instead of generating in a canonical pose, Pixal3D directly generates 3D in a pixel-aligned way, consistent with the input view. To enable this, we introduce a pixel back-projection conditioning scheme that explicitly lifts multi-scale image features into a 3D feature volume, establishing direct pixel-to-3D correspondence without ambiguity. We show that Pixal3D is not only scalable and capable of producing high-quality 3D assets, but also substantially improves fidelity, approaching the fidelity level of reconstruction. Furthermore, Pixal3D naturally extends to multi-view generation by aggregating back-projected feature volumes across views. Finally, we show pixel-aligned generation benefits scene synthesis, and present a modular pipeline that produces high-fidelity, object-separated 3D scenes from images. Pixal3D for the first time demonstrates 3D-native pixel-aligned generation at scale, and provides a new inspiring way towards high-fidelity 3D generation of object or scene from single or multi-view images. Project page: https://ldyang694.github.io/projects/pixal3d/