AsyncEvGS: Asynchronous Event-Assisted Gaussian Splatting for Handheld Motion-Blurred Scenes
作者: Jun Dai, Renbiao Jin, Bo Xu, Yutian Chen, Linning Xu, Mulin Yu, Tianfan Xue, Shi Guo
分类: cs.CV
发布日期: 2026-05-08
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出AsyncEvGS,解决手持设备运动模糊场景下的3D高斯溅射重建问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 高斯溅射 事件相机 运动模糊 异步数据融合
📋 核心要点
- 现有3D重建方法在运动模糊场景下表现不佳,事件相机虽然提供高时间分辨率运动信息,但依赖低分辨率传感器和严格同步。
- 本文提出AsyncEvGS,利用异步RGB-Event双摄像头系统,先从事件数据重建清晰图像,再用VGGT进行跨域姿态估计,为3DGS提供稳健初始化。
- 通过结构驱动的事件损失和视角一致性正则化,AsyncEvGS在自建的AsyncEv-Deblur数据集和现有数据集上均取得了优于现有技术的效果,提升了重建的鲁棒性。
📝 摘要(中文)
本文提出了一种灵活的高分辨率异步RGB-Event双摄像头系统以及相应的重建框架,旨在解决3D高斯溅射(3DGS)和神经辐射场(NeRF)等3D重建方法在输入图像存在严重运动模糊时失效的问题。该方法首先从事件数据中重建清晰的图像,然后利用基于Visual Geometry Transformer (VGGT)的跨域姿态估计模块,为3DGS获得鲁棒的初始化。在优化过程中,采用结构驱动的事件损失和特定视角的连续性正则化器来缓解传统事件损失和去模糊损失的不适定性,从而确保稳定和高保真的重建。此外,本文还贡献了一个新的高分辨率RGB-Event数据集AsyncEv-Deblur,该数据集使用所提出的异步系统捕获。实验结果表明,该方法在具有挑战性的数据集和现有基准测试中均实现了最先进的性能,显著提高了严重运动模糊下的重建鲁棒性。
🔬 方法详解
问题定义:论文旨在解决手持设备在运动模糊场景下,传统3D重建方法(如3DGS和NeRF)性能显著下降的问题。现有事件辅助方法依赖于低分辨率传感器和严格的RGB-Event同步,限制了其在智能手机等常见设备上的应用。
核心思路:论文的核心思路是利用事件相机的高时间分辨率特性辅助RGB图像的3D重建,通过异步RGB-Event数据融合,克服运动模糊的影响。关键在于利用事件数据进行图像去模糊,并为3DGS提供良好的初始化,同时设计损失函数保证重建的稳定性和准确性。
技术框架:整体框架包含三个主要阶段:1) 事件数据预处理和图像重建:利用事件数据生成清晰的RGB图像,解决运动模糊问题。2) 跨域姿态估计:使用VGGT模块,将事件重建图像和RGB图像进行跨域特征匹配,估计相机姿态,为后续3DGS优化提供初始位姿。3) 3DGS优化:利用初始位姿,优化3DGS参数,并通过结构驱动的事件损失和视角一致性正则化器,提升重建质量和稳定性。
关键创新:主要的创新点在于:1) 提出了适用于异步RGB-Event数据的重建框架,无需严格同步。2) 采用了结构驱动的事件损失,缓解了传统事件损失的不适定性。3) 设计了视角一致性正则化器,增强了重建的稳定性。4) 构建了高分辨率异步RGB-Event数据集AsyncEv-Deblur,促进了相关研究。
关键设计:1) VGGT模块:用于跨域姿态估计,通过注意力机制学习RGB图像和事件重建图像之间的对应关系。2) 结构驱动的事件损失:利用事件梯度信息约束3DGS的结构,减少模糊带来的影响。3) 视角一致性正则化器:约束不同视角下的渲染结果一致性,提升重建的鲁棒性。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AsyncEvGS在自建的AsyncEv-Deblur数据集以及现有数据集上均取得了state-of-the-art的性能。相较于现有方法,AsyncEvGS在严重运动模糊场景下的重建质量和鲁棒性得到了显著提升。具体的性能提升幅度未知,但论文强调了其在 challenging 数据集上的优越表现。
🎯 应用场景
该研究成果可应用于手持设备(如智能手机)的3D扫描和建模,特别是在光照条件差或运动剧烈的情况下。例如,可用于快速创建室内场景的3D模型、增强现实应用中的物体追踪和定位、以及机器人导航等领域。未来,该技术有望集成到各种移动设备中,实现更便捷、更鲁棒的3D内容创作。
📄 摘要(原文)
3D reconstruction methods such as 3D Gaussian Splatting (3DGS) and Neural Radiance Fields (NeRF) achieve impressive photorealism but fail when input images suffer from severe motion blur. While event cameras provide high-temporal-resolution motion cues, existing event-assisted approaches rely on low-resolution sensors and strict synchronization, limiting their practicality for handheld 3D capture on common devices, such as smartphones. We introduce a flexible, high-resolution asynchronous RGB-Event dual-camera system and a corresponding reconstruction framework. Our approach first reconstructs sharp images from the event data and then employs a cross-domain pose estimation module based on the Visual Geometry Transformer (VGGT) to obtain robust initialization for 3DGS. During optimization, we employ a structure-driven event loss and view-specific consistency regularizers to mitigate the ill-posed behavior of traditional event losses and deblurring losses, ensuring both stable and high-fidelity reconstruction. We further contribute AsyncEv-Deblur, a new high-resolution RGB-Event dataset captured with our asynchronous system. Experiments demonstrate that our method achieves state-of-the-art performance on both our challenging dataset and existing benchmarks, substantially improving reconstruction robustness under severe motion blur. Project page: https://openimaginglab.github.io/AsyncEvGS/