I2V-GS: Infrastructure-to-Vehicle View Transformation with Gaussian Splatting for Autonomous Driving Data Generation
作者: Jialei Chen, Wuhao Xu, Sipeng He, Baoru Huang, Dongchun Ren
分类: cs.CV
发布日期: 2025-07-31
💡 一句话要点
I2V-GS:利用高斯溅射进行基础设施到车辆视角转换,用于自动驾驶数据生成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 自动驾驶 数据生成 视角转换 高斯溅射 神经渲染
📋 核心要点
- 现有自动驾驶数据主要由车辆采集,成本高且效率低,高质量大规模数据获取是挑战。
- I2V-GS利用高斯溅射,将基础设施视角转换为车辆视角,生成自动驾驶训练数据。
- 实验表明,I2V-GS在车辆视角合成质量上显著优于现有方法,指标提升显著。
📝 摘要(中文)
本文提出了一种新颖的方法I2V-GS,利用高斯溅射将基础设施视角转换为车辆视角,从而生成自动驾驶数据。从稀疏的基础设施视角进行重建并在大视角变换下渲染是一个具有挑战性的问题。我们采用自适应深度扭曲来生成密集的训练视角。为了进一步扩大视角的范围,我们采用级联策略来修复扭曲的图像,这也确保了修复内容在不同视角下的一致性。为了进一步确保扩散模型的可靠性,我们利用跨视角信息来进行置信度引导的优化。此外,我们还引入了RoadSight,这是一个来自真实场景的多模态、多视角基础设施视角数据集。据我们所知,I2V-GS是第一个使用基础设施-车辆视角转换生成自动驾驶数据集的框架。实验结果表明,I2V-GS显著提高了车辆视角下的合成质量,在NTA-Iou、NTL-Iou和FID方面分别优于StreetGaussian 45.7%、34.2%和14.9%。
🔬 方法详解
问题定义:自动驾驶系统依赖大量高质量数据,但车辆采集成本高昂。现有方法难以从稀疏的基础设施视角重建场景,并在大视角变换下生成高质量的车辆视角图像,尤其是在保持跨视角一致性方面存在挑战。
核心思路:利用高斯溅射(Gaussian Splatting)技术,将基础设施视角下的图像转换为车辆视角。通过自适应深度扭曲生成密集的训练视角,并采用级联修复策略来扩大视角范围,同时保证跨视角内容一致性。利用跨视角信息进行置信度引导优化,提升扩散模型的可靠性。
技术框架:I2V-GS框架主要包含以下几个阶段:1) 从稀疏的基础设施视角图像进行3D重建,得到场景的高斯溅射表示。2) 使用自适应深度扭曲技术,将基础设施视角图像扭曲到多个车辆视角,生成密集的训练视角。3) 采用级联修复策略,对扭曲后的图像进行修复,扩大视角范围,并保证跨视角一致性。4) 利用跨视角信息,对扩散模型进行置信度引导优化,提升生成图像的质量和可靠性。
关键创新:该方法的核心创新在于:1) 首次将高斯溅射技术应用于基础设施到车辆视角的转换,为自动驾驶数据生成提供了一种新的思路。2) 提出了自适应深度扭曲和级联修复策略,有效解决了大视角变换下的图像生成问题,并保证了跨视角内容的一致性。3) 利用跨视角信息进行置信度引导优化,提升了扩散模型的可靠性。
关键设计:自适应深度扭曲的具体实现方式未知。级联修复策略的具体级联层数和修复模型选择未知。置信度引导优化的具体损失函数和优化算法未知。RoadSight数据集的具体模态和视角数量未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,I2V-GS在车辆视角下的合成质量显著优于StreetGaussian,在NTA-Iou、NTL-Iou和FID指标上分别提升了45.7%、34.2%和14.9%。这些数据表明,I2V-GS能够生成更高质量、更逼真的车辆视角图像,为自动驾驶算法的训练提供更有效的数据支持。
🎯 应用场景
该研究成果可应用于自动驾驶仿真平台的数据生成,降低数据采集成本,加速自动驾驶算法的开发和验证。此外,该方法还可用于增强现实、虚拟现实等领域,实现不同视角下的场景重建和渲染。未来,该技术有望应用于智慧交通、城市规划等领域,为城市管理和决策提供更全面的数据支持。
📄 摘要(原文)
Vast and high-quality data are essential for end-to-end autonomous driving systems. However, current driving data is mainly collected by vehicles, which is expensive and inefficient. A potential solution lies in synthesizing data from real-world images. Recent advancements in 3D reconstruction demonstrate photorealistic novel view synthesis, highlighting the potential of generating driving data from images captured on the road. This paper introduces a novel method, I2V-GS, to transfer the Infrastructure view To the Vehicle view with Gaussian Splatting. Reconstruction from sparse infrastructure viewpoints and rendering under large view transformations is a challenging problem. We adopt the adaptive depth warp to generate dense training views. To further expand the range of views, we employ a cascade strategy to inpaint warped images, which also ensures inpainting content is consistent across views. To further ensure the reliability of the diffusion model, we utilize the cross-view information to perform a confidenceguided optimization. Moreover, we introduce RoadSight, a multi-modality, multi-view dataset from real scenarios in infrastructure views. To our knowledge, I2V-GS is the first framework to generate autonomous driving datasets with infrastructure-vehicle view transformation. Experimental results demonstrate that I2V-GS significantly improves synthesis quality under vehicle view, outperforming StreetGaussian in NTA-Iou, NTL-Iou, and FID by 45.7%, 34.2%, and 14.9%, respectively.