OceanSplat: Object-aware Gaussian Splatting with Trinocular View Consistency for Underwater Scene Reconstruction

📄 arXiv: 2601.04984v1 📥 PDF

作者: Minseong Kweon, Jinsun Park

分类: cs.CV

发布日期: 2026-01-08

备注: Accepted to AAAI 2026. Project page: https://oceansplat.github.io


💡 一句话要点

OceanSplat:利用三目视图一致性的水下场景物体感知高斯溅射重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 水下场景重建 高斯溅射 三目视图一致性 深度正则化 水下图像恢复

📋 核心要点

  1. 水下环境的光学退化导致多视图不一致,严重影响了水下场景的3D重建质量。
  2. OceanSplat通过引入三目视图一致性约束和自监督深度正则化,优化3D高斯体的空间分布,从而提升重建质量。
  3. 实验表明,OceanSplat在真实和模拟水下场景中,显著优于现有方法,有效减少了伪影并提升了几何重建精度。

📝 摘要(中文)

本文提出了一种新颖的基于3D高斯溅射(Gaussian Splatting)的方法OceanSplat,用于精确表示水下场景中的3D几何结构。为了克服水下光学退化引起的多视图不一致性,我们的方法通过渲染相对于每个输入视图水平和垂直平移的相机视图,并通过逆向扭曲对齐它们,从而强制执行三目视图一致性。此外,这些平移后的相机视图用于通过三角测量导出合成的极线深度先验,作为自监督深度正则化器。这些几何约束有助于3D高斯体的空间优化,并保持水下环境中的场景结构。我们还提出了一种深度感知的alpha调整,它根据3D高斯体的z分量和视角方向,在早期训练期间调节其不透明度,从而阻止介质引起的图元的形成。通过我们的贡献,3D高斯体与散射介质分离,从而能够稳健地表示物体几何结构,并显著减少重建的水下场景中的浮动伪影。在真实水下和模拟场景上的实验表明,OceanSplat在散射介质中的场景重建和恢复方面均显著优于现有方法。

🔬 方法详解

问题定义:论文旨在解决水下场景三维重建中,由于水体散射和吸收导致图像质量下降,进而引起多视角几何不一致的问题。现有方法难以有效区分物体表面和水体介质,导致重建结果中存在大量伪影,几何结构失真严重。

核心思路:论文的核心思路是利用三目视图一致性约束和深度先验信息,对3D高斯溅射进行优化,从而将3D高斯体与散射介质解耦。通过引入额外的几何约束,使得高斯体能够更好地拟合真实物体表面,减少水体介质的影响。

技术框架:OceanSplat的整体框架基于3D高斯溅射。首先,从输入图像中初始化3D高斯体。然后,通过渲染模块生成水平和垂直平移的虚拟相机视图,并利用逆向扭曲实现视图对齐,构建三目视图一致性约束。同时,利用三角测量从平移视图中导出深度先验,作为自监督深度正则化器。最后,通过优化3D高斯体的参数,包括位置、尺度、旋转和颜色等,实现场景重建。

关键创新:论文的关键创新在于引入了三目视图一致性约束和自监督深度正则化器,有效地解决了水下场景中多视图几何不一致的问题。此外,提出的深度感知alpha调整策略,能够抑制早期训练阶段中由水体介质引起的伪影。

关键设计:三目视图一致性通过渲染水平和垂直平移的虚拟相机视图实现,平移量是超参数。深度先验通过对平移视图进行三角测量得到。深度感知的alpha调整策略根据高斯体的z分量和视角方向,动态调整其不透明度。损失函数包括图像重建损失、深度损失和正则化项。

📊 实验亮点

实验结果表明,OceanSplat在真实和模拟水下场景中均取得了显著的性能提升。与现有方法相比,OceanSplat能够更准确地重建水下物体的几何结构,并显著减少浮动伪影。定量结果显示,OceanSplat在PSNR、SSIM等指标上均优于现有方法,尤其是在复杂水下场景中,优势更加明显。例如,在某个真实水下场景中,OceanSplat的PSNR比最佳基线方法提高了约2dB。

🎯 应用场景

OceanSplat在水下机器人导航、水下考古、海洋生物监测、水下结构检测等领域具有广泛的应用前景。该方法能够提供更准确、更清晰的水下场景三维重建结果,有助于提高水下作业的效率和安全性,并为相关科学研究提供有力支持。未来,该技术有望应用于更复杂的海洋环境中,例如浑浊度更高的水域或光照条件更差的区域。

📄 摘要(原文)

We introduce OceanSplat, a novel 3D Gaussian Splatting-based approach for accurately representing 3D geometry in underwater scenes. To overcome multi-view inconsistencies caused by underwater optical degradation, our method enforces trinocular view consistency by rendering horizontally and vertically translated camera views relative to each input view and aligning them via inverse warping. Furthermore, these translated camera views are used to derive a synthetic epipolar depth prior through triangulation, which serves as a self-supervised depth regularizer. These geometric constraints facilitate the spatial optimization of 3D Gaussians and preserve scene structure in underwater environments. We also propose a depth-aware alpha adjustment that modulates the opacity of 3D Gaussians during early training based on their $z$-component and viewing direction, deterring the formation of medium-induced primitives. With our contributions, 3D Gaussians are disentangled from the scattering medium, enabling robust representation of object geometry and significantly reducing floating artifacts in reconstructed underwater scenes. Experiments on real-world underwater and simulated scenes demonstrate that OceanSplat substantially outperforms existing methods for both scene reconstruction and restoration in scattering media.