Geometric 4D Stitching for Grounded 4D Generation

📄 arXiv: 2605.09984v1 📥 PDF

作者: Sunwoo Park, Taesung Kwon, Jong Chul Ye

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-11


💡 一句话要点

提出几何4D拼接框架(Geometric 4D Stitching),实现高效且几何一致的4D场景生成与扩展。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 4D生成 几何一致性 场景重构 神经渲染 动态场景建模 计算机视觉

📋 核心要点

  1. 现有4D生成方法依赖辐射场重构,导致计算成本高昂且难以保证生成内容的几何一致性。
  2. 提出几何4D拼接框架,通过显式识别缺失几何区域并利用几何基础的4D补丁进行补全。
  3. 该方法在单卡上实现高效场景扩展,显著提升几何一致性,并支持迭代扩展与场景编辑。

📝 摘要(中文)

近期的4D生成方法利用生成模型补全场景级缺失信息,并将其重构为基于辐射场的表示。然而,这些流程往往在生成内容中表现出几何不一致性,且基于辐射场的重构需要昂贵的优化过程。此外,辐射场表示常将这些几何不一致性掩盖在其视角依赖的特性中,无法强制实现基于几何基础的一致性。为解决这些问题,我们提出了几何4D拼接(Geometric 4D Stitching),这是一个高效框架,能够显式识别缺失的几何区域,并利用几何基础的4D补丁进行填充。结果表明,我们的方法在单张NVIDIA RTX 5090 GPU上,单步场景扩展仅需不到10分钟即可构建4D场景表示,同时显著提升了几何一致性。此外,我们证明了显式4D拼接支持4D网格的迭代扩展及4D场景编辑。

🔬 方法详解

问题定义:现有4D生成方法多采用神经辐射场(NeRF)或高斯溅射(3DGS)等隐式表示,这些方法在处理动态场景时,往往因缺乏显式几何约束而产生伪影,且优化过程极其耗时,难以实现大规模场景的扩展。

核心思路:论文引入“几何拼接”概念,将4D场景视为由多个几何一致的补丁(Stitches)拼接而成。通过显式建模几何结构而非单纯依赖辐射场,从而在保证几何一致性的前提下,大幅降低计算复杂度。

技术框架:框架主要包含三个阶段:首先是缺失区域的几何识别与定位;其次是生成几何一致的4D补丁以填补空缺;最后通过拼接算法将补丁融合至全局场景中,并支持后续的迭代式扩展。

关键创新:核心创新在于从“基于辐射场的隐式优化”转向“基于几何的显式拼接”。这种方法避免了将几何错误掩盖在视角依赖的颜色信息中,实现了真正的几何一致性。

关键设计:采用了轻量级的几何补丁生成策略,通过显式几何约束(如深度一致性或网格对齐)来引导生成过程,并利用高效的拼接算法在保持拓扑结构的同时完成场景的无缝扩展。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,该方法在单张NVIDIA RTX 5090 GPU上,单步场景扩展耗时缩短至10分钟以内,远优于传统基于优化的重构方法。定性与定量评估表明,该方法在几何一致性指标上表现优异,且在处理复杂动态场景的迭代扩展时,展现出极高的稳定性和可编辑性。

🎯 应用场景

该技术在虚拟现实(VR)与增强现实(AR)内容创作中具有广阔前景,特别适用于大规模动态场景的快速构建。此外,在电影特效制作、游戏资产生成以及机器人仿真环境的自动化构建中,该方法提供的迭代式编辑与扩展能力将极大提升生产效率。

📄 摘要(原文)

Recent 4D generation methods complete scene-level missing information using generative models and reconstruct the scene into radiance-based representations. However, these pipelines often present geometric inconsistencies in the generated content, and the radiance-based reconstruction requires expensive optimization. Furthermore, radiance-based representations often absorb these geometric inconsistencies into their view-dependent nature, failing to enforce the grounded geometric consistency. To address these issues, we propose Geometric 4D Stitching, an efficient framework that explicitly identifies missing geometric regions and complements them with geometrically grounded 4D stitches. As a result, our method constructs 4D scene representations in under 10 minutes on a single NVIDIA RTX 5090 GPU per one-step scene expansion, while improving geometric consistency. Moreover, we demonstrate that our explicit 4D stitching supports interative expansion of 4D mesh as well as 4D scene editing.