Structure from Collision

📄 arXiv: 2505.21335v1 📥 PDF

作者: Takuhiro Kaneko

分类: cs.GR, cs.AI, cs.CV, cs.LG, cs.RO

发布日期: 2025-05-27

备注: Accepted to CVPR 2025 (Highlight). Project page: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/sfc/


💡 一句话要点

提出SfC-NeRF,通过碰撞视频估计物体内外结构,突破传统NeRF局限

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 碰撞结构重建 神经辐射场 三维重建 内部结构估计 体积退火

📋 核心要点

  1. 现有NeRF等方法只能重建可见的外部结构,无法推断隐藏的内部结构,限制了其应用范围。
  2. SfC-NeRF通过分析碰撞过程中物体外观变化,结合物理、外观和关键帧约束,优化内部结构。
  3. 实验证明,SfC-NeRF在多种结构和材料的物体上有效,并通过体积退火避免局部最优。

📝 摘要(中文)

近年来,神经三维表示(如NeRF和3DGS)在多视角图像的三维结构估计方面取得了显著进展。然而,这些方法主要局限于估计可见的外部结构,难以识别隐藏在表面之下的内部结构。为了克服这一局限性,本文提出了一个新的任务,即“碰撞结构重建”(Structure from Collision, SfC),旨在从碰撞过程中外观的变化来估计物体的结构(包括不可见的内部结构)。为了解决这个问题,我们提出了一种名为SfC-NeRF的新模型,该模型通过物理约束、外观保持约束(即可见的外部结构)和关键帧约束下的视频序列来优化物体的不可见内部结构。特别地,为了避免由于问题的病态性而陷入不良的局部最优,我们提出了体积退火(volume annealing)方法;即通过重复缩小和扩大体积来搜索全局最优解。在涉及各种结构(即各种腔体形状、位置和大小)和材料属性的115个对象上的大量实验揭示了SfC的性质,并证明了所提出的SfC-NeRF的有效性。

🔬 方法详解

问题定义:论文旨在解决从碰撞视频中重建物体完整三维结构的问题,包括可见的外部结构和不可见的内部结构。现有方法,如NeRF和3DGS,主要依赖于多视角图像,只能重建可见表面,无法推断内部空腔、孔洞等结构。因此,如何利用碰撞过程中物体形变和外观变化的信息,推断其内部结构,是一个重要的挑战。

核心思路:论文的核心思路是利用碰撞过程中物体外观的变化来推断其内部结构。碰撞会导致物体形变,这种形变会反映在外观上。通过建立外观变化与内部结构之间的联系,并结合物理约束、外观保持约束和关键帧约束,可以优化内部结构的估计。此外,为了避免陷入局部最优,论文提出了体积退火策略。

技术框架:SfC-NeRF的整体框架包括以下几个关键模块:1) 基于NeRF的初始三维表示;2) 碰撞模拟模块,用于模拟碰撞过程中的物体形变;3) 外观渲染模块,用于将模拟的形变渲染成图像;4) 损失函数计算模块,用于计算模拟图像与真实图像之间的差异;5) 优化模块,用于更新NeRF的参数,从而优化三维结构。体积退火策略贯穿整个优化过程,通过逐步缩小和扩大体积,来搜索全局最优解。

关键创新:论文最重要的创新点在于提出了“碰撞结构重建”(Structure from Collision, SfC)这一新任务,并设计了相应的SfC-NeRF模型。与传统的基于多视角图像的三维重建方法不同,SfC利用碰撞过程中的外观变化来推断内部结构,突破了传统方法的局限性。此外,体积退火策略也是一个重要的创新,可以有效避免局部最优。

关键设计:SfC-NeRF的关键设计包括:1) 使用NeRF作为初始三维表示,可以有效地表示复杂的三维结构;2) 使用物理引擎模拟碰撞过程,可以准确地模拟物体的形变;3) 设计了外观保持约束,确保重建的外部结构与真实物体一致;4) 设计了关键帧约束,利用关键帧的信息来加速优化过程;5) 使用L1损失函数来衡量模拟图像与真实图像之间的差异;6) 体积退火策略通过调整体积大小来探索不同的解空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SfC-NeRF能够有效地重建物体的内部结构,即使在具有复杂空腔形状和不同材料属性的情况下。通过与不使用体积退火的基线方法进行比较,证明了体积退火策略的有效性。实验在包含115个对象的 diverse 数据集上进行,验证了 SfC-NeRF 的泛化能力。

🎯 应用场景

该研究成果可应用于机器人操作、逆向工程、文物修复等领域。例如,机器人可以通过碰撞来感知物体的内部结构,从而更好地进行抓取和操作。在逆向工程中,可以利用该方法重建物体的完整三维模型,包括内部结构。在文物修复中,可以用于分析文物的内部损伤情况,从而制定更有效的修复方案。未来,该技术有望与增强现实等技术结合,为用户提供更丰富的交互体验。

📄 摘要(原文)

Recent advancements in neural 3D representations, such as neural radiance fields (NeRF) and 3D Gaussian splatting (3DGS), have enabled the accurate estimation of 3D structures from multiview images. However, this capability is limited to estimating the visible external structure, and identifying the invisible internal structure hidden behind the surface is difficult. To overcome this limitation, we address a new task called Structure from Collision (SfC), which aims to estimate the structure (including the invisible internal structure) of an object from appearance changes during collision. To solve this problem, we propose a novel model called SfC-NeRF that optimizes the invisible internal structure of an object through a video sequence under physical, appearance (i.e., visible external structure)-preserving, and keyframe constraints. In particular, to avoid falling into undesirable local optima owing to its ill-posed nature, we propose volume annealing; that is, searching for global optima by repeatedly reducing and expanding the volume. Extensive experiments on 115 objects involving diverse structures (i.e., various cavity shapes, locations, and sizes) and material properties revealed the properties of SfC and demonstrated the effectiveness of the proposed SfC-NeRF.