3D Smoke Scene Reconstruction Guided by Vision Priors from Multimodal Large Language Models

作者: Xinye Zheng, Fei Wang, Yiqi Nie, Kun Li, Junjie Chen, Jiaqi Zhao, Yanyan Wei, Zhiliang Wu

分类: cs.CV

发布日期: 2026-04-07

💡 一句话要点

提出Smoke-GS，利用视觉先验重建烟雾降质的多视角3D场景

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 三维重建 烟雾场景 高斯溅射 视觉先验 新视角合成

📋 核心要点

烟雾环境下的三维重建面临烟雾散射、视角依赖外观变化和跨视角一致性退化等难题。
Smoke-GS框架利用Nano-Banana-Pro增强图像，并引入视角相关的介质分支，提升对烟雾的鲁棒性。
实验结果表明，该方法在烟雾环境中能有效生成一致且清晰的新视角，提升了重建质量。

📝 摘要（中文）

本文提出了一种框架，用于重建烟雾降质的多视角图像中的3D场景。由于烟雾会引入强烈的散射效应、视角相关的外观变化以及严重的跨视角一致性退化，因此重建此类场景极具挑战性。为了解决这些问题，我们集成了视觉先验和高效的3D场景建模。我们使用Nano-Banana-Pro来增强烟雾降质的图像，为重建提供更清晰的视觉观测。同时，我们开发了Smoke-GS，一个基于介质感知的3D高斯溅射框架，用于烟雾场景重建和面向恢复的新视角合成。Smoke-GS使用显式的3D高斯来建模场景，并引入了一个轻量级的视角相关的介质分支，以捕获由烟雾引起的依赖于方向的外观变化。我们的方法在保持3D高斯溅射渲染效率的同时，提高了对烟雾引起的退化的鲁棒性。实验结果表明，我们的方法在具有挑战性的烟雾环境中生成一致且视觉清晰的新视角方面是有效的。

🔬 方法详解

问题定义：现有方法在烟雾环境中进行三维重建时，由于烟雾的散射效应、视角依赖的外观变化以及严重的跨视角一致性退化，导致重建质量显著下降。现有的三维重建方法难以有效处理这些由烟雾引起的复杂问题，从而限制了其在实际烟雾场景中的应用。

核心思路：本文的核心思路是结合视觉先验知识和高效的三维场景建模方法，以应对烟雾环境下的三维重建挑战。具体而言，首先利用图像增强技术（Nano-Banana-Pro）来改善输入图像的质量，提供更清晰的视觉信息。然后，通过引入一个介质感知的3D高斯溅射框架（Smoke-GS），显式地建模烟雾对光线传播的影响，从而提高重建的准确性和鲁棒性。

技术框架：整个框架包含两个主要部分：图像增强和三维场景重建。首先，使用Nano-Banana-Pro对输入的烟雾降质图像进行增强，以提高图像的清晰度和对比度。然后，将增强后的图像输入到Smoke-GS框架中进行三维场景重建。Smoke-GS使用3D高斯来表示场景，并引入一个视角相关的介质分支来建模烟雾的散射效应。通过优化3D高斯的参数和介质分支的参数，可以实现高质量的三维场景重建和新视角合成。

关键创新：该方法最重要的创新点在于提出了Smoke-GS，一个介质感知的3D高斯溅射框架。与传统的3D高斯溅射方法不同，Smoke-GS显式地建模了烟雾对光线传播的影响，从而能够更准确地重建烟雾环境下的三维场景。此外，该方法还引入了一个轻量级的视角相关的介质分支，以捕获由烟雾引起的依赖于方向的外观变化。

关键设计：Smoke-GS的关键设计包括：1) 使用3D高斯来表示场景，这使得该方法能够高效地进行渲染和优化；2) 引入视角相关的介质分支，该分支是一个轻量级的神经网络，用于预测每个3D高斯在不同视角下的颜色和透明度；3) 使用基于物理的渲染方程来建模烟雾的散射效应，这使得该方法能够更准确地重建烟雾环境下的三维场景。损失函数包括图像重建损失和正则化损失，用于约束3D高斯的形状和大小。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的Smoke-GS方法在烟雾环境中能够生成一致且视觉清晰的新视角，显著优于现有的三维重建方法。具体而言，该方法在合成数据集和真实数据集上都取得了state-of-the-art的结果。与基线方法相比，该方法在PSNR、SSIM和LPIPS等指标上均有显著提升，证明了其在烟雾场景重建方面的有效性。

🎯 应用场景

该研究成果可应用于火灾救援、灾害评估、自动驾驶等领域。在火灾救援中，可以利用该技术重建火灾现场的三维场景，帮助救援人员了解火势蔓延情况，制定更有效的救援方案。在自动驾驶领域，可以利用该技术提高车辆在烟雾环境下的感知能力，从而提高驾驶安全性。此外，该技术还可以用于虚拟现实和增强现实等领域，为用户提供更逼真的烟雾场景体验。

📄 摘要（原文）

Reconstructing 3D scenes from smoke-degraded multi-view images is particularly difficult because smoke introduces strong scattering effects, view-dependent appearance changes, and severe degradation of cross-view consistency. To address these issues, we propose a framework that integrates visual priors with efficient 3D scene modeling. We employ Nano-Banana-Pro to enhance smoke-degraded images and provide clearer visual observations for reconstruction and develop Smoke-GS, a medium-aware 3D Gaussian Splatting framework for smoke scene reconstruction and restoration-oriented novel view synthesis. Smoke-GS models the scene using explicit 3D Gaussians and introduces a lightweight view-dependent medium branch to capture direction-dependent appearance variations caused by smoke. Our method preserves the rendering efficiency of 3D Gaussian Splatting while improving robustness to smoke-induced degradation. Results demonstrate the effectiveness of our method for generating consistent and visually clear novel views in challenging smoke environments.

3D Smoke Scene Reconstruction Guided by Vision Priors from Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理