GEAR: GEometry-motion Alternating Refinement for Articulated Object Modeling with Gaussian Splatting

作者: Jialin Li, Bin Fu, Ruiping Wang, Xilin Chen

分类: cs.CV, cs.GR, cs.RO

发布日期: 2026-04-09

备注: Accepted to CVPRF2026

💡 一句话要点

GEAR：基于高斯溅射的几何-运动交替优化框架，用于铰接物体建模

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 铰接物体建模 高斯溅射 几何重建 运动估计 交替优化 部件分割 弱监督学习

📋 核心要点

现有铰接物体建模方法在几何和运动的联合优化中不稳定，且对复杂结构泛化能力有限。
GEAR采用EM风格的交替优化框架，将几何和运动建模为高斯溅射中相互依赖的组件，提升收敛性和一致性。
实验表明，GEAR在几何重建和运动参数估计方面均优于现有方法，尤其是在复杂铰接物体上表现突出。

📝 摘要（中文）

高保真交互式数字资产对于具身智能和机器人交互至关重要，但由于铰接物体复杂的结构和耦合的几何-运动关系，其重建仍然具有挑战性。现有方法在几何-运动联合优化中存在不稳定性，并且在复杂的多关节或分布外物体上的泛化能力有限。为了解决这些挑战，我们提出了GEAR，一个EM风格的交替优化框架，它将几何和运动作为高斯溅射表示中相互依赖的组件进行联合建模。GEAR将部件分割视为潜在变量，将关节运动参数视为显式变量，交替细化它们以提高收敛性和几何-运动一致性。为了在不牺牲泛化的情况下提高部件分割质量，我们利用一个普通的2D分割模型来提供多视图部件先验，并采用弱监督约束来规范潜在变量。在多个基准测试和我们新构建的数据集GEAR-Multi上的实验表明，GEAR在几何重建和运动参数估计方面取得了最先进的结果，特别是在具有多个可移动部件的复杂铰接物体上。

🔬 方法详解

问题定义：铰接物体的三维重建和运动参数估计是一个具有挑战性的问题，尤其是在处理具有复杂结构和多个关节的物体时。现有方法通常难以在几何形状和运动参数之间进行有效的联合优化，导致重建结果不准确，并且泛化能力较差。这些方法在处理分布外的铰接物体时，性能会显著下降。

核心思路：GEAR的核心思路是将铰接物体的几何形状和运动参数解耦，并采用一种EM风格的交替优化框架进行迭代优化。具体来说，GEAR将部件分割视为潜在变量，将关节运动参数视为显式变量，通过交替优化这两个变量来提高重建的准确性和运动估计的精度。这种交替优化的方式有助于稳定训练过程，并避免陷入局部最优。

技术框架：GEAR的整体框架包含以下几个主要模块：1) 基于高斯溅射的场景表示；2) 多视图部件分割先验；3) 几何-运动交替优化。首先，使用高斯溅射来表示铰接物体的三维几何形状。然后，利用一个2D分割模型提供多视图的部件分割先验，用于指导三维重建过程。最后，通过EM风格的交替优化算法，迭代地优化几何形状和运动参数，直到收敛。

关键创新：GEAR的关键创新在于其交替优化框架和对部件分割先验的利用。通过将几何和运动解耦，并采用交替优化的方式，GEAR能够更有效地处理复杂的铰接物体。此外，利用2D分割模型提供的多视图部件分割先验，可以提高三维重建的准确性和鲁棒性，同时避免过度依赖训练数据，从而提高泛化能力。

关键设计：GEAR的关键设计包括：1) 使用高斯溅射进行场景表示，可以实现高效的渲染和优化；2) 采用弱监督约束来规范潜在变量（部件分割），避免过拟合；3) 设计了特定的损失函数，用于衡量重建的几何精度和运动参数的准确性。此外，在交替优化过程中，需要仔细调整各个模块的学习率和优化策略，以确保训练的稳定性和收敛速度。

🖼️ 关键图片

📊 实验亮点

GEAR在多个基准测试和新构建的GEAR-Multi数据集上取得了SOTA结果。尤其在复杂铰接物体上，GEAR在几何重建和运动参数估计方面均显著优于现有方法。实验结果表明，GEAR能够有效地处理具有多个可移动部件的复杂铰接物体，并具有良好的泛化能力。

🎯 应用场景

GEAR在机器人操作、虚拟现实、游戏开发等领域具有广泛的应用前景。它可以用于创建高保真、可交互的铰接物体数字资产，从而提升机器人与环境的交互能力，增强虚拟现实体验的真实感，并为游戏开发提供更丰富的资源。此外，该技术还可以应用于工业设计和仿真，帮助工程师更好地理解和优化铰接机构的性能。

📄 摘要（原文）

High-fidelity interactive digital assets are essential for embodied intelligence and robotic interaction, yet articulated objects remain challenging to reconstruct due to their complex structures and coupled geometry-motion relationships. Existing methods suffer from instability in geometry-motion joint optimization, while their generalization remains limited on complex multi-joint or out-of-distribution objects. To address these challenges, we propose GEAR, an EM-style alternating optimization framework that jointly models geometry and motion as interdependent components within a Gaussian Splatting representation. GEAR treats part segmentation as a latent variable and joint motion parameters as explicit variables, alternately refining them for improved convergence and geometric-motion consistency. To enhance part segmentation quality without sacrificing generalization, we leverage a vanilla 2D segmentation model to provide multi-view part priors, and employ a weakly supervised constraint to regularize the latent variable. Experiments on multiple benchmarks and our newly constructed dataset GEAR-Multi demonstrate that GEAR achieves state-of-the-art results in geometric reconstruction and motion parameters estimation, particularly on complex articulated objects with multiple movable parts.

GEAR: GEometry-motion Alternating Refinement for Articulated Object Modeling with Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理