U4D: Uncertainty-Aware 4D World Modeling from LiDAR Sequences
作者: Xiang Xu, Ao Liang, Youquan Liu, Linfeng Li, Lingdong Kong, Ziwei Liu, Qingshan Liu
分类: cs.CV, cs.RO
发布日期: 2025-12-02
备注: Preprint; 19 pages, 7 figures, 8 tables
💡 一句话要点
U4D:面向自动驾驶,提出不确定性感知的LiDAR序列4D世界建模方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 4D世界建模 LiDAR序列 不确定性感知 扩散模型 自动驾驶 时空建模 几何重建
📋 核心要点
- 现有LiDAR序列4D世界建模方法忽略了场景中不确定性的差异,导致复杂区域重建质量差,时间稳定性不足。
- U4D框架通过估计空间不确定性图,聚焦于高熵区域的重建,并利用时空混合块保证时间一致性。
- 实验结果表明,U4D能够生成几何保真度高且时间一致的LiDAR序列,提升了4D世界建模的可靠性。
📝 摘要(中文)
本文提出了一种名为U4D的不确定性感知框架,用于从LiDAR序列中建模动态3D环境,从而为自动驾驶和具身智能构建可靠的4D世界。现有生成框架通常对所有空间区域进行统一处理,忽略了真实场景中各区域的不确定性差异,导致复杂或模糊区域出现伪影,限制了真实性和时间稳定性。U4D首先从预训练的分割模型中估计空间不确定性图,以定位语义上具有挑战性的区域。然后,通过两个连续阶段以“由难到易”的方式进行生成:(1)不确定性区域建模,以精细的几何保真度重建高熵区域;(2)不确定性条件补全,在学习到的结构先验下合成剩余区域。为了进一步确保时间一致性,U4D包含一个时空混合(MoST)块,该块在扩散过程中自适应地融合空间和时间表示。大量实验表明,U4D生成几何上逼真且时间上一致的LiDAR序列,从而提高了用于自动感知和仿真的4D世界建模的可靠性。
🔬 方法详解
问题定义:现有基于LiDAR序列的4D世界建模方法,在处理真实场景时,由于场景复杂性和数据噪声,不同区域重建的难度存在差异。现有方法通常采用统一的处理方式,忽略了这种不确定性,导致在复杂或模糊区域产生伪影,降低了重建的真实性和时间一致性。因此,如何有效地建模场景中的不确定性,并针对性地进行重建,是本文要解决的关键问题。
核心思路:U4D的核心思路是“不确定性感知”的建模方式。首先,通过预训练的分割模型估计空间不确定性图,从而定位语义上具有挑战性的区域。然后,采用“由难到易”的生成策略,优先重建高不确定性区域,再利用这些区域的信息来引导剩余区域的补全。这种方式能够更有效地利用有限的计算资源,提升复杂区域的重建质量。
技术框架:U4D框架主要包含三个核心模块:不确定性估计模块、不确定性区域建模模块和不确定性条件补全模块。首先,利用预训练的分割模型估计空间不确定性图。然后,不确定性区域建模模块负责重建高熵区域,生成具有精细几何细节的初始重建结果。最后,不确定性条件补全模块利用已重建的高熵区域作为条件,合成剩余区域,完成整个场景的重建。为了保证时间一致性,框架还引入了时空混合(MoST)块,在扩散过程中自适应地融合空间和时间信息。
关键创新:U4D的关键创新在于其不确定性感知的建模策略和“由难到易”的生成方式。与现有方法不同,U4D不是对所有区域进行统一处理,而是首先识别出重建难度较高的区域,并优先进行重建。这种策略能够更有效地利用计算资源,提升复杂区域的重建质量,从而提高整体的真实性和时间一致性。此外,MoST块的引入也增强了模型对时序信息的利用能力。
关键设计:在不确定性估计模块中,使用了预训练的语义分割模型,并基于分割结果计算每个区域的信息熵,作为不确定性的度量。在不确定性区域建模模块和不确定性条件补全模块中,使用了基于扩散模型的生成网络,通过调整扩散过程中的噪声水平,控制重建的细节程度。MoST块的具体实现方式是,将空间和时间特征分别进行编码,然后通过注意力机制进行融合,自适应地调整空间和时间信息的权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,U4D在几何保真度和时间一致性方面均优于现有方法。具体来说,U4D在重建精度方面取得了显著提升,尤其是在复杂场景中,伪影明显减少。此外,U4D生成的LiDAR序列在时间上更加稳定,减少了抖动和闪烁现象。这些结果验证了U4D的不确定性感知建模策略的有效性。
🎯 应用场景
U4D在自动驾驶、机器人导航、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于生成逼真的动态3D环境,为自动驾驶系统的训练和测试提供高质量的数据。此外,U4D还可以用于构建虚拟城市,为游戏开发和城市规划提供支持。通过提高4D世界建模的可靠性,U4D有助于提升自动驾驶系统的安全性和鲁棒性。
📄 摘要(原文)
Modeling dynamic 3D environments from LiDAR sequences is central to building reliable 4D worlds for autonomous driving and embodied AI. Existing generative frameworks, however, often treat all spatial regions uniformly, overlooking the varying uncertainty across real-world scenes. This uniform generation leads to artifacts in complex or ambiguous regions, limiting realism and temporal stability. In this work, we present U4D, an uncertainty-aware framework for 4D LiDAR world modeling. Our approach first estimates spatial uncertainty maps from a pretrained segmentation model to localize semantically challenging regions. It then performs generation in a "hard-to-easy" manner through two sequential stages: (1) uncertainty-region modeling, which reconstructs high-entropy regions with fine geometric fidelity, and (2) uncertainty-conditioned completion, which synthesizes the remaining areas under learned structural priors. To further ensure temporal coherence, U4D incorporates a mixture of spatio-temporal (MoST) block that adaptively fuses spatial and temporal representations during diffusion. Extensive experiments show that U4D produces geometrically faithful and temporally consistent LiDAR sequences, advancing the reliability of 4D world modeling for autonomous perception and simulation.