HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

📄 arXiv: 2603.08313v1 📥 PDF

作者: Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh

分类: cs.CV

发布日期: 2026-03-09

备注: ICLR 2026. Project page: https://shin-dong-yeon.github.io/HDR-NSFF/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出HDR-NSFF,用于从单目交替曝光视频中重建动态高动态范围场景。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 高动态范围 神经辐射场 场景流 动态场景重建 时空建模

📋 核心要点

  1. 传统HDR方法在动态场景中易产生重影和时间不一致,难以捕捉真实场景的高动态范围。
  2. HDR-NSFF将场景建模为时空连续函数,通过4D建模实现动态HDR辐射场的重建,避免了2D对齐的局限性。
  3. 论文提出了HDR-GoPro数据集,并在该数据集上验证了HDR-NSFF在时空视图合成上的优越性能。

📝 摘要(中文)

真实世界场景的亮度通常跨越比标准相机所能捕捉的更宽的动态范围。传统HDR方法合并交替曝光帧,但这些方法本质上受限于2D像素级对齐,在动态场景中常导致重影伪影和时间不一致性。为解决这些限制,我们提出了HDR-NSFF,一种从2D合并到4D时空建模的范式转变。我们的框架通过将场景表示为空间和时间的连续函数,从交替曝光的单目视频中重建动态HDR辐射场,并且兼容基于神经辐射场和4D高斯溅射(4DGS)的动态表示。这个统一的端到端流程显式地建模HDR辐射、3D场景流、几何和色调映射,确保物理合理性和全局一致性。我们通过(i)扩展基于语义的光流与DINO特征来实现曝光不变的运动估计,以及(ii)结合生成先验作为正则化器来补偿单目捕获中的有限观察和饱和引起的信息损失,进一步增强了鲁棒性。为了评估HDR时空视图合成,我们提出了第一个专为动态HDR场景设计的真实世界HDR-GoPro数据集。实验表明,HDR-NSFF即使在具有挑战性的曝光变化下也能恢复精细的辐射细节和连贯的动态,从而在新的时空视图合成中实现了最先进的性能。

🔬 方法详解

问题定义:现有HDR方法主要依赖于2D像素级别的图像对齐,在处理动态场景时,由于运动物体的存在,容易产生重影伪影和时间不一致性。此外,单目视频的视角信息有限,饱和区域的信息丢失,都给HDR重建带来了挑战。

核心思路:HDR-NSFF的核心思想是将动态HDR场景建模为一个连续的4D时空辐射场。通过学习一个函数,该函数能够根据空间位置和时间信息预测HDR辐射值、场景流、几何信息和色调映射,从而实现高质量的动态HDR重建。这种方法避免了2D对齐的步骤,能够更好地处理动态场景。

技术框架:HDR-NSFF采用端到端的训练框架,主要包含以下几个模块:1) 曝光不变的运动估计模块,利用DINO特征扩展语义光流,实现鲁棒的运动估计;2) 动态HDR辐射场建模模块,使用神经辐射场或4D高斯溅射来表示场景;3) 渲染模块,根据视角和时间信息,渲染出对应的HDR图像;4) 色调映射模块,将HDR图像转换为LDR图像,以便于显示。

关键创新:HDR-NSFF的关键创新在于将HDR重建问题从传统的2D图像处理提升到4D时空建模。通过显式地建模场景流、几何信息和色调映射,实现了物理合理且全局一致的动态HDR重建。此外,利用DINO特征进行曝光不变的运动估计,以及引入生成先验作为正则化器,增强了模型的鲁棒性。

关键设计:在运动估计模块中,使用了DINO特征来提高光流估计的鲁棒性,使其对曝光变化不敏感。在辐射场建模模块中,可以选择使用神经辐射场或4D高斯溅射作为场景表示。损失函数包括渲染损失、场景流损失和正则化损失。生成先验通过对抗训练的方式引入,用于补偿单目视频的视角信息不足和饱和区域的信息丢失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HDR-NSFF在作者提出的HDR-GoPro数据集上取得了state-of-the-art的性能。实验结果表明,即使在具有挑战性的曝光变化下,HDR-NSFF也能恢复精细的辐射细节和连贯的动态。相较于传统方法,HDR-NSFF在PSNR、SSIM等指标上均有显著提升。

🎯 应用场景

HDR-NSFF在电影制作、游戏开发、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于创建更逼真、更具沉浸感的虚拟环境,提升用户体验。此外,该技术还可以应用于自动驾驶领域,提高车辆对高动态范围场景的感知能力。

📄 摘要(原文)

Radiance of real-world scenes typically spans a much wider dynamic range than what standard cameras can capture. While conventional HDR methods merge alternating-exposure frames, these approaches are inherently constrained to 2D pixel-level alignment, often leading to ghosting artifacts and temporal inconsistency in dynamic scenes. To address these limitations, we present HDR-NSFF, a paradigm shift from 2D-based merging to 4D spatio-temporal modeling. Our framework reconstructs dynamic HDR radiance fields from alternating-exposure monocular videos by representing the scene as a continuous function of space and time, and is compatible with both neural radiance field and 4D Gaussian Splatting (4DGS) based dynamic representations. This unified end-to-end pipeline explicitly models HDR radiance, 3D scene flow, geometry, and tone-mapping, ensuring physical plausibility and global coherence. We further enhance robustness by (i) extending semantic-based optical flow with DINO features to achieve exposure-invariant motion estimation, and (ii) incorporating a generative prior as a regularizer to compensate for limited observation in monocular captures and saturation-induced information loss. To evaluate HDR space-time view synthesis, we present the first real-world HDR-GoPro dataset specifically designed for dynamic HDR scenes. Experiments demonstrate that HDR-NSFF recovers fine radiance details and coherent dynamics even under challenging exposure variations, thereby achieving state-of-the-art performance in novel space-time view synthesis. Project page: https://shin-dong-yeon.github.io/HDR-NSFF/