MatSpray: Fusing 2D Material World Knowledge on 3D Geometry
作者: Philipp Langsteiner, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
分类: cs.CV, cs.GR
发布日期: 2025-12-20
备注: Project page: https://matspray.jdihlmann.com/
💡 一句话要点
MatSpray:融合2D材质知识于3D几何,提升重建场景真实感
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 材质建模 扩散模型 高斯溅射 神经渲染
📋 核心要点
- 现有3D重建方法缺乏精确的空间变化材质参数,导致重新光照场景效果不佳,限制了真实感。
- MatSpray框架融合2D扩散模型生成的材质信息到3D几何体,通过优化和投影实现材质融合。
- 实验表明,该方法在定量指标和视觉真实感上优于现有技术,提升了渲染质量和资产创建效率。
📝 摘要(中文)
在游戏和电影行业中,手动建模材质参数和3D几何体是一项耗时但至关重要的任务。虽然3D重建的最新进展已经能够实现对场景几何体和外观的精确近似,但由于缺乏精确的、空间变化的材质参数,这些方法在重新光照场景中常常表现不佳。同时,在2D图像上运行的扩散模型在预测基于物理的渲染(PBR)属性(如反照率、粗糙度和金属度)方面表现出强大的性能。然而,将这些2D材质贴图转移到重建的3D几何体上仍然是一个重大挑战。我们提出了一个框架,通过结合新的基于学习和基于投影的方法,将2D材质数据融合到3D几何体中。我们首先通过高斯溅射重建场景几何体。从输入图像中,扩散模型生成反照率、粗糙度和金属参数的2D贴图。任何现有的可以将图像或视频转换为PBR材质的扩散模型都可以应用。通过优化基于图像的损失或使用高斯光线追踪将材质参数直接投影到高斯体上,可以将预测进一步集成到3D表示中。为了提高精细尺度精度和多视图一致性,我们进一步引入了一个轻量级的神经细化步骤(Neural Merger),它将光线追踪的材质特征作为输入,并产生详细的调整。我们的结果表明,所提出的方法在定量指标和感知视觉真实感方面都优于现有技术。这使得从重建的场景中获得更准确、可重新光照和照片般逼真的渲染成为可能,从而显著提高了内容生产流程中资产创建工作流程的真实感和效率。
🔬 方法详解
问题定义:现有3D重建方法在材质参数估计方面存在不足,尤其是在空间变化的材质属性的精确建模上。这导致重建的3D场景在重新光照时,真实感和光照效果不佳。手动建模材质参数耗时且需要专业知识,阻碍了内容创作的效率。
核心思路:利用2D图像扩散模型在材质预测方面的强大能力,将2D材质信息(如反照率、粗糙度和金属度)融合到3D重建的几何体中。通过将2D材质预测与3D几何信息相结合,实现更精确、更真实的材质表示,从而改善重新光照效果和整体渲染质量。
技术框架:MatSpray框架包含以下主要阶段:1) 使用高斯溅射进行3D几何重建;2) 使用2D扩散模型生成反照率、粗糙度和金属度等材质贴图;3) 通过优化图像损失或高斯光线追踪将2D材质信息投影到3D高斯体上;4) 使用轻量级神经细化模块(Neural Merger)进一步提升材质细节和多视角一致性。
关键创新:该方法的核心创新在于将2D扩散模型生成的材质信息有效地融合到3D几何体中。通过结合基于学习和基于投影的方法,实现了对3D场景材质的精确建模。引入的Neural Merger模块进一步提升了材质的精细度和多视角一致性,这是现有方法难以达到的。
关键设计:框架的关键设计包括:1) 使用高斯溅射作为3D表示,便于光线追踪和材质投影;2) 采用现成的2D扩散模型,无需额外训练;3) 设计了基于图像损失的优化方法和基于高斯光线追踪的直接投影方法,灵活地将2D材质信息融入3D几何体;4) Neural Merger模块采用轻量级网络结构,以光线追踪的材质特征作为输入,输出材质调整量,实现高效的材质细化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MatSpray在定量指标和视觉真实感方面均优于现有技术。通过与现有方法进行对比,MatSpray能够生成更准确、更真实的材质表示,显著改善重新光照效果。用户研究也表明,MatSpray生成的渲染结果在视觉上更具吸引力,更符合真实世界的感知。
🎯 应用场景
MatSpray技术可广泛应用于游戏开发、电影制作、虚拟现实和增强现实等领域。它能够显著提高3D场景重建的真实感和渲染质量,降低手动建模材质参数的成本,加速内容创作流程。该技术还有潜力应用于文物数字化保护、工业设计和建筑可视化等领域,为各行业带来更高效、更逼真的3D内容创作体验。
📄 摘要(原文)
Manual modeling of material parameters and 3D geometry is a time consuming yet essential task in the gaming and film industries. While recent advances in 3D reconstruction have enabled accurate approximations of scene geometry and appearance, these methods often fall short in relighting scenarios due to the lack of precise, spatially varying material parameters. At the same time, diffusion models operating on 2D images have shown strong performance in predicting physically based rendering (PBR) properties such as albedo, roughness, and metallicity. However, transferring these 2D material maps onto reconstructed 3D geometry remains a significant challenge. We propose a framework for fusing 2D material data into 3D geometry using a combination of novel learning-based and projection-based approaches. We begin by reconstructing scene geometry via Gaussian Splatting. From the input images, a diffusion model generates 2D maps for albedo, roughness, and metallic parameters. Any existing diffusion model that can convert images or videos to PBR materials can be applied. The predictions are further integrated into the 3D representation either by optimizing an image-based loss or by directly projecting the material parameters onto the Gaussians using Gaussian ray tracing. To enhance fine-scale accuracy and multi-view consistency, we further introduce a light-weight neural refinement step (Neural Merger), which takes ray-traced material features as input and produces detailed adjustments. Our results demonstrate that the proposed methods outperform existing techniques in both quantitative metrics and perceived visual realism. This enables more accurate, relightable, and photorealistic renderings from reconstructed scenes, significantly improving the realism and efficiency of asset creation workflows in content production pipelines.