No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency

📄 arXiv: 2602.23559v1 📥 PDF

作者: Cho-Ying Wu, Zixun Huang, Xinyu Huang, Liu Ren

分类: cs.CV

发布日期: 2026-02-27

备注: CVPR 2026 Main Conference. Project page: https://choyingw.github.io/3d-rgbx.github.io/


💡 一句话要点

提出一种无需标定和深度信息的跨模态视图合成方法,实现3D一致性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 跨模态学习 视图合成 传感器融合 无需标定 3D高斯溅射

📋 核心要点

  1. 现有RGB-X融合方法依赖精确标定,实际应用中标定工作繁琐且成本高昂,限制了大规模RGB-X数据的应用。
  2. 提出一种匹配-稠密化-整合的跨模态视图合成方法,无需精确标定和深度信息,仅依赖RGB图像的COLMAP结果。
  3. 通过置信度感知稠密化和自匹配过滤,提升视图合成质量,并利用3D高斯溅射进行整合,实现3D一致性。

📝 摘要(中文)

本文首次研究了跨不同模态的跨传感器视图合成问题。我们考察了一个实际、基础但被广泛忽视的问题:如何获得对齐的RGB-X数据。现有的大部分RGB-X工作都假设这种配对数据存在,并专注于模态融合,但实际上它需要在标定方面投入巨大的工程努力。我们提出了一种匹配-稠密化-整合方法。首先,我们执行RGB-X图像匹配,然后进行引导点稠密化。通过提出的置信度感知稠密化和自匹配过滤,我们获得了更好的视图合成效果,并随后在3D高斯溅射(3DGS)中整合它们。我们的方法不使用X传感器的3D先验,仅假设RGB可以使用近乎零成本的COLMAP。我们的目标是消除各种RGB-X传感器的繁琐标定,并通过可扩展的解决方案打破大规模真实世界RGB-X数据收集的瓶颈,从而提高跨传感器学习的普及性。

🔬 方法详解

问题定义:论文旨在解决跨模态传感器数据(RGB-X)的视图合成问题,尤其是在缺乏精确标定和深度信息的情况下。现有方法通常假设RGB和X模态数据已经精确对齐,这在实际应用中需要耗费大量时间和精力进行传感器标定,成为大规模RGB-X数据收集和应用的瓶颈。

核心思路:论文的核心思路是通过图像匹配和点云稠密化,从RGB和X模态图像中提取对应关系,并利用这些对应关系进行视图合成。关键在于避免直接依赖深度信息和精确的传感器标定,而是通过自监督的方式学习跨模态的几何关系。

技术框架:整体框架包含三个主要阶段:1) 匹配:使用图像匹配算法(具体算法未知)在RGB和X模态图像之间建立对应关系。2) 稠密化:利用引导点稠密化方法,基于初始匹配结果生成更密集的点云。该阶段引入了置信度感知机制和自匹配过滤,以提高点云质量。3) 整合:将稠密化后的点云整合到3D高斯溅射(3DGS)框架中,实现视图合成和3D一致性。

关键创新:最重要的创新点在于提出了一种无需标定和深度信息的跨模态视图合成方法。与现有方法相比,该方法避免了繁琐的传感器标定过程,降低了RGB-X数据收集的门槛,使其更易于扩展到大规模真实世界场景。此外,置信度感知稠密化和自匹配过滤也是关键创新,提高了点云质量和视图合成效果。

关键设计:论文中关键的设计包括:1) 置信度感知稠密化:具体实现方式未知,但其目的是根据匹配的置信度来调整点云稠密化的程度,从而减少噪声和提高精度。2) 自匹配过滤:通过自匹配来过滤掉错误的匹配点,进一步提高点云质量。3) 使用3D高斯溅射(3DGS)进行整合:3DGS是一种高效的神经渲染方法,可以实现高质量的视图合成和3D重建。具体的损失函数和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文重点在于提出了一种无需标定和深度信息的跨模态视图合成方法,具体实验结果未知,但强调了该方法能够有效降低RGB-X数据收集的门槛,并提升视图合成质量。通过置信度感知稠密化和自匹配过滤,可以获得更好的点云质量,从而改善视图合成效果。未来工作可以进一步量化性能提升,并与其他基线方法进行比较。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶、虚拟现实/增强现实等领域。例如,在机器人导航中,可以利用RGB相机和激光雷达等多种传感器获取环境信息,无需精确标定即可实现环境感知和地图构建。在自动驾驶中,可以融合摄像头和毫米波雷达数据,提高感知系统的鲁棒性和准确性。该方法降低了多传感器融合的门槛,促进了相关技术的发展。

📄 摘要(原文)

We present the first study of cross-sensor view synthesis across different modalities. We examine a practical, fundamental, yet widely overlooked problem: getting aligned RGB-X data, where most RGB-X prior work assumes such pairs exist and focuses on modality fusion, but it empirically requires huge engineering effort in calibration. We propose a match-densify-consolidate method. First, we perform RGB-X image matching followed by guided point densification. Using the proposed confidence-aware densification and self-matching filtering, we attain better view synthesis and later consolidate them in 3D Gaussian Splatting (3DGS). Our method uses no 3D priors for X-sensor and only assumes nearly no-cost COLMAP for RGB. We aim to remove the cumbersome calibration for various RGB-X sensors and advance the popularity of cross-sensor learning by a scalable solution that breaks through the bottleneck in large-scale real-world RGB-X data collection.