Ev4DGS: Novel-view Rendering of Non-Rigid Objects from Monocular Event Streams

📄 arXiv: 2510.11717v1 📥 PDF

作者: Takuya Nakabayashi, Navami Kairanda, Hideo Saito, Vladislav Golyanik

分类: cs.CV

发布日期: 2025-10-13

期刊: British Machine Vision Conference (BMVC) 2025


💡 一句话要点

Ev4DGS:基于单目事件流的非刚性物体新视角渲染

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 事件相机 新视角渲染 非刚性物体 3D高斯 Splatting 单目视觉

📋 核心要点

  1. 现有非刚性物体新视角渲染方法依赖RGB信息,限制了事件相机的优势。
  2. Ev4DGS仅使用单目事件流,通过可变形3D高斯 Splatting 实现新视角渲染。
  3. 实验表明,Ev4DGS在合成和真实数据集上优于现有基线方法。

📝 摘要(中文)

与同步RGB相机相比,事件相机在 novel view rendering 方面具有多种优势。虽然已有一些高效的基于事件的技术支持刚性场景,但对于非刚性物体,现有方法通常需要额外的稀疏RGB输入,这在实践中是一个很大的限制。本文探索了仅从事件流中学习此类模型是否可行,并提出了 Ev4DGS,这是第一个从单目事件流中在显式观察空间(即RGB或灰度图像)中进行非刚性形变物体新视角渲染的方法。我们的方法通过以下方式回归可变形的3D高斯 Splatting 表示:1) 将估计模型的输出与2D事件观察空间相关联的损失函数,以及 2) 从事件生成的二值掩码训练的粗糙3D形变模型。我们在现有的合成数据集和新记录的包含非刚性物体的真实数据集上进行了实验比较。结果表明了 Ev4DGS 的有效性,并且与可以在我们的设置中应用的多个朴素基线相比,Ev4DGS 具有更优越的性能。我们将发布我们的模型和用于评估的数据集以供研究使用。

🔬 方法详解

问题定义:现有非刚性物体新视角渲染方法通常需要额外的RGB信息,这限制了事件相机在低光照、高动态范围等场景下的优势。该论文旨在解决仅使用单目事件流进行非刚性物体新视角渲染的问题,克服对RGB信息的依赖。

核心思路:该论文的核心思路是利用事件流直接学习可变形的3D高斯 Splatting (3DGS) 表示。通过将渲染结果与事件数据进行关联,并引入从事件生成的二值掩码训练的粗糙3D形变模型,实现对非刚性形变的建模。这样避免了对额外RGB信息的依赖,充分发挥了事件相机的优势。

技术框架:Ev4DGS 的整体框架包含以下几个主要模块:1) 事件数据预处理:将原始事件流转换为适合模型输入的格式。2) 可变形3D高斯 Splatting:使用3DGS表示场景,并引入形变模型来处理非刚性形变。3) 损失函数设计:设计损失函数,将渲染结果与事件数据进行关联,并利用二值掩码进行约束。4) 优化:通过优化3DGS参数和形变模型,实现对场景的重建和新视角渲染。

关键创新:该论文最重要的技术创新在于提出了第一个仅使用单目事件流进行非刚性物体新视角渲染的方法。与现有方法相比,Ev4DGS 不需要额外的RGB信息,能够更好地利用事件相机的优势。此外,该论文还提出了利用事件生成的二值掩码来训练粗糙3D形变模型的方法,有效地约束了形变模型的学习。

关键设计:该论文的关键设计包括:1) 使用3DGS作为场景表示,能够实现高效的渲染。2) 设计了将渲染结果与事件数据进行关联的损失函数,包括光度一致性损失和事件一致性损失。3) 利用事件生成的二值掩码来训练粗糙3D形变模型,并将其作为正则化项加入损失函数中。4) 针对事件数据的特点,对网络结构和训练策略进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Ev4DGS 在合成和真实数据集上均取得了优异的性能。与多个朴素基线方法相比,Ev4DGS 在 PSNR、SSIM 等指标上均有显著提升。例如,在真实数据集上,Ev4DGS 的 PSNR 比最佳基线方法提升了 2-3 dB,表明 Ev4DGS 能够更准确地重建非刚性物体,并生成更逼真的新视角图像。

🎯 应用场景

该研究成果可应用于机器人导航、增强现实、虚拟现实等领域。在机器人导航中,可以利用该方法实现对动态环境的感知和重建,提高机器人的自主导航能力。在增强现实和虚拟现实中,可以利用该方法实现对非刚性物体的逼真渲染,提升用户体验。此外,该方法还可以应用于运动捕捉、人体姿态估计等领域,具有广泛的应用前景。

📄 摘要(原文)

Event cameras offer various advantages for novel view rendering compared to synchronously operating RGB cameras, and efficient event-based techniques supporting rigid scenes have been recently demonstrated in the literature. In the case of non-rigid objects, however, existing approaches additionally require sparse RGB inputs, which can be a substantial practical limitation; it remains unknown if similar models could be learned from event streams only. This paper sheds light on this challenging open question and introduces Ev4DGS, i.e., the first approach for novel view rendering of non-rigidly deforming objects in the explicit observation space (i.e., as RGB or greyscale images) from monocular event streams. Our method regresses a deformable 3D Gaussian Splatting representation through 1) a loss relating the outputs of the estimated model with the 2D event observation space, and 2) a coarse 3D deformation model trained from binary masks generated from events. We perform experimental comparisons on existing synthetic and newly recorded real datasets with non-rigid objects. The results demonstrate the validity of Ev4DGS and its superior performance compared to multiple naive baselines that can be applied in our setting. We will release our models and the datasets used in the evaluation for research purposes; see the project webpage: https://4dqv.mpi-inf.mpg.de/Ev4DGS/.