CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction
作者: Jisu Shin, Richard Shaw, Seunghyun Shin, Zhensong Zhang, Hae-Gon Jeon, Eduardo Perez-Pellitero
分类: cs.CV
发布日期: 2025-07-21 (更新: 2025-09-30)
💡 一句话要点
CHROMA:通过双边网格预测实现多视角外观一致性调和
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多视角重建 光度一致性 双边网格 自监督学习 新视角合成
📋 核心要点
- 现有方法在多视角三维重建中,由于相机内部处理导致光度不一致,降低了新视角合成质量。
- CHROMA通过预测空间自适应双边网格来校正光度变化,实现多视角一致性调和。
- 该方法可高效处理大规模数据,泛化能力强,且不显著影响3D模型训练时间。
📝 摘要(中文)
现代相机流水线应用了大量的设备端处理,例如曝光调整、白平衡和色彩校正。这些处理虽然单独来看是有益的,但常常会在不同视角之间引入光度不一致性。这些外观差异违反了多视角一致性,并降低了新视角合成的质量。虽然已经有人提出联合优化场景特定表示和每图像外观嵌入来解决这个问题,但这增加了计算复杂度和减慢了训练速度。本文提出了一种可泛化的前馈方法,该方法预测空间自适应双边网格,以多视角一致的方式校正光度变化。我们的模型可以在单步处理数百帧图像,从而实现高效的大规模调和,并无缝集成到下游3D重建模型中,提供跨场景泛化能力,而无需场景特定的重新训练。为了克服缺乏配对数据的问题,我们采用了一种混合自监督渲染损失,利用3D基础模型,从而提高对真实世界变化的泛化能力。大量实验表明,我们的方法在重建质量上优于或匹配现有的具有外观建模的场景特定优化方法,而不会显著影响基线3D模型的训练时间。
🔬 方法详解
问题定义:多视角三维重建中,由于不同相机流水线对图像进行不同的处理(如曝光调整、白平衡、色彩校正),导致图像间出现光度不一致性。这种不一致性会严重影响后续的三维重建和新视角合成效果。现有的解决方法通常需要针对特定场景进行优化,计算复杂度高,训练速度慢,且泛化能力差。
核心思路:CHROMA的核心思路是通过学习一个可泛化的模型,直接预测用于校正光度变化的双边网格。该网格能够对每个像素进行自适应的颜色调整,从而使不同视角的图像在光度上保持一致。这种方法避免了针对每个场景进行单独优化的需要,提高了效率和泛化能力。
技术框架:CHROMA采用前馈网络结构,直接从多视角图像中预测双边网格。整体流程如下:首先,将多视角图像输入到网络中;然后,网络预测出空间自适应的双边网格;最后,利用该网格对原始图像进行颜色校正,得到光度一致的图像。这些校正后的图像可以用于后续的三维重建和新视角合成。
关键创新:CHROMA的关键创新在于使用可泛化的前馈网络预测双边网格,从而实现多视角光度调和。与现有方法相比,CHROMA无需针对每个场景进行优化,具有更高的效率和更好的泛化能力。此外,CHROMA还利用3D基础模型,设计了一种混合自监督渲染损失,进一步提高了模型的泛化能力。
关键设计:CHROMA的关键设计包括:1) 使用双边网格来表示颜色校正,能够对每个像素进行自适应的调整;2) 设计了一种混合自监督渲染损失,利用3D基础模型来约束模型的学习,提高泛化能力;3) 采用前馈网络结构,实现高效的预测。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CHROMA在重建质量上优于或匹配现有的具有外观建模的场景特定优化方法,同时显著降低了计算复杂度,且不会显著影响基线3D模型的训练时间。该方法能够高效处理大规模数据,并具有良好的跨场景泛化能力。通过混合自监督渲染损失,CHROMA在真实世界场景中表现出更强的鲁棒性。
🎯 应用场景
CHROMA可应用于各种需要多视角三维重建和新视角合成的场景,例如自动驾驶、虚拟现实、增强现实、机器人导航等。通过消除多视角图像之间的光度不一致性,可以提高三维重建的精度和新视角合成的质量,从而改善用户体验和提高系统的可靠性。该方法还可用于图像编辑和修复,例如去除不同照片之间的颜色差异。
📄 摘要(原文)
Modern camera pipelines apply extensive on-device processing, such as exposure adjustment, white balance, and color correction, which, while beneficial individually, often introduce photometric inconsistencies across views. These appearance variations violate multi-view consistency and degrade novel view synthesis. Joint optimization of scene-specific representations and per-image appearance embeddings has been proposed to address this issue, but with increased computational complexity and slower training. In this work, we propose a generalizable, feed-forward approach that predicts spatially adaptive bilateral grids to correct photometric variations in a multi-view consistent manner. Our model processes hundreds of frames in a single step, enabling efficient large-scale harmonization, and seamlessly integrates into downstream 3D reconstruction models, providing cross-scene generalization without requiring scene-specific retraining. To overcome the lack of paired data, we employ a hybrid self-supervised rendering loss leveraging 3D foundation models, improving generalization to real-world variations. Extensive experiments show that our approach outperforms or matches the reconstruction quality of existing scene-specific optimization methods with appearance modeling, without significantly affecting the training time of baseline 3D models.