GEAR: GEometry-motion Alternating Refinement for Articulated Object Modeling with Gaussian Splatting
作者: Jialin Li, Bin Fu, Ruiping Wang, Xilin Chen
分类: cs.CV, cs.GR, cs.RO
发布日期: 2026-04-09
备注: Accepted to CVPRF2026
💡 一句话要点
GEAR:基于高斯溅射的几何-运动交替优化框架,用于铰接物体建模
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 铰接物体建模 高斯溅射 几何重建 运动估计 交替优化 部件分割 弱监督学习
📋 核心要点
- 现有铰接物体建模方法在几何和运动的联合优化中不稳定,且对复杂结构泛化能力有限。
- GEAR采用EM风格的交替优化框架,将几何和运动建模为高斯溅射中相互依赖的组件,提升收敛性和一致性。
- 实验表明,GEAR在几何重建和运动参数估计方面均优于现有方法,尤其是在复杂铰接物体上表现突出。
📝 摘要(中文)
高保真交互式数字资产对于具身智能和机器人交互至关重要,但由于铰接物体复杂的结构和耦合的几何-运动关系,其重建仍然具有挑战性。现有方法在几何-运动联合优化中存在不稳定性,并且在复杂的多关节或分布外物体上的泛化能力有限。为了解决这些挑战,我们提出了GEAR,一个EM风格的交替优化框架,它将几何和运动作为高斯溅射表示中相互依赖的组件进行联合建模。GEAR将部件分割视为潜在变量,将关节运动参数视为显式变量,交替细化它们以提高收敛性和几何-运动一致性。为了在不牺牲泛化的情况下提高部件分割质量,我们利用一个普通的2D分割模型来提供多视图部件先验,并采用弱监督约束来规范潜在变量。在多个基准测试和我们新构建的数据集GEAR-Multi上的实验表明,GEAR在几何重建和运动参数估计方面取得了最先进的结果,特别是在具有多个可移动部件的复杂铰接物体上。
🔬 方法详解
问题定义:铰接物体的三维重建和运动参数估计是一个具有挑战性的问题,尤其是在处理具有复杂结构和多个关节的物体时。现有方法通常难以在几何形状和运动参数之间进行有效的联合优化,导致重建结果不准确,并且泛化能力较差。这些方法在处理分布外的铰接物体时,性能会显著下降。
核心思路:GEAR的核心思路是将铰接物体的几何形状和运动参数解耦,并采用一种EM风格的交替优化框架进行迭代优化。具体来说,GEAR将部件分割视为潜在变量,将关节运动参数视为显式变量,通过交替优化这两个变量来提高重建的准确性和运动估计的精度。这种交替优化的方式有助于稳定训练过程,并避免陷入局部最优。
技术框架:GEAR的整体框架包含以下几个主要模块:1) 基于高斯溅射的场景表示;2) 多视图部件分割先验;3) 几何-运动交替优化。首先,使用高斯溅射来表示铰接物体的三维几何形状。然后,利用一个2D分割模型提供多视图的部件分割先验,用于指导三维重建过程。最后,通过EM风格的交替优化算法,迭代地优化几何形状和运动参数,直到收敛。
关键创新:GEAR的关键创新在于其交替优化框架和对部件分割先验的利用。通过将几何和运动解耦,并采用交替优化的方式,GEAR能够更有效地处理复杂的铰接物体。此外,利用2D分割模型提供的多视图部件分割先验,可以提高三维重建的准确性和鲁棒性,同时避免过度依赖训练数据,从而提高泛化能力。
关键设计:GEAR的关键设计包括:1) 使用高斯溅射进行场景表示,可以实现高效的渲染和优化;2) 采用弱监督约束来规范潜在变量(部件分割),避免过拟合;3) 设计了特定的损失函数,用于衡量重建的几何精度和运动参数的准确性。此外,在交替优化过程中,需要仔细调整各个模块的学习率和优化策略,以确保训练的稳定性和收敛速度。
🖼️ 关键图片
📊 实验亮点
GEAR在多个基准测试和新构建的GEAR-Multi数据集上取得了SOTA结果。尤其在复杂铰接物体上,GEAR在几何重建和运动参数估计方面均显著优于现有方法。实验结果表明,GEAR能够有效地处理具有多个可移动部件的复杂铰接物体,并具有良好的泛化能力。
🎯 应用场景
GEAR在机器人操作、虚拟现实、游戏开发等领域具有广泛的应用前景。它可以用于创建高保真、可交互的铰接物体数字资产,从而提升机器人与环境的交互能力,增强虚拟现实体验的真实感,并为游戏开发提供更丰富的资源。此外,该技术还可以应用于工业设计和仿真,帮助工程师更好地理解和优化铰接机构的性能。
📄 摘要(原文)
High-fidelity interactive digital assets are essential for embodied intelligence and robotic interaction, yet articulated objects remain challenging to reconstruct due to their complex structures and coupled geometry-motion relationships. Existing methods suffer from instability in geometry-motion joint optimization, while their generalization remains limited on complex multi-joint or out-of-distribution objects. To address these challenges, we propose GEAR, an EM-style alternating optimization framework that jointly models geometry and motion as interdependent components within a Gaussian Splatting representation. GEAR treats part segmentation as a latent variable and joint motion parameters as explicit variables, alternately refining them for improved convergence and geometric-motion consistency. To enhance part segmentation quality without sacrificing generalization, we leverage a vanilla 2D segmentation model to provide multi-view part priors, and employ a weakly supervised constraint to regularize the latent variable. Experiments on multiple benchmarks and our newly constructed dataset GEAR-Multi demonstrate that GEAR achieves state-of-the-art results in geometric reconstruction and motion parameters estimation, particularly on complex articulated objects with multiple movable parts.