Articulated Object Estimation in the Wild

📄 arXiv: 2509.01708v1 📥 PDF

作者: Abdelrhman Werby, Martin Büchner, Adrian Röfer, Chenguang Huang, Wolfram Burgard, Abhinav Valada

分类: cs.RO, cs.CV

发布日期: 2025-09-01

备注: 9th Conference on Robot Learning (CoRL), 2025


💡 一句话要点

ArtiPoint:提出一种在动态环境中估计铰接物体运动的新框架。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 铰接物体估计 深度点跟踪 因子图优化 RGB-D视频 动态环境

📋 核心要点

  1. 现有铰接物体运动估计方法在非约束环境中表现不佳,无法处理动态相机和部分遮挡。
  2. ArtiPoint结合深度点跟踪和因子图优化,直接从RGB-D视频中估计铰接部件轨迹和铰接轴。
  3. Arti4D数据集提供了场景级别的铰接物体交互数据,实验证明ArtiPoint优于现有方法。

📝 摘要(中文)

理解铰接物体的3D运动对于机器人场景理解、移动操作和运动规划至关重要。现有的铰接估计方法主要集中在受控环境中,假设固定的相机视角或对各种物体状态的直接观察,这在更真实的非约束环境中往往会失败。相比之下,人类可以通过观察他人操纵物体来轻松推断铰接。受此启发,我们引入了ArtiPoint,这是一种新颖的估计框架,可以在动态相机运动和部分可观察性下推断铰接物体模型。通过将深度点跟踪与因子图优化框架相结合,ArtiPoint可以直接从原始RGB-D视频中稳健地估计铰接部件的轨迹和铰接轴。为了促进该领域未来的研究,我们引入了Arti4D,这是第一个以自我为中心的野外数据集,它捕获了场景级别的铰接物体交互,并附带铰接标签和真实相机姿势。我们将ArtiPoint与一系列经典的和基于学习的基线进行比较,证明了其在Arti4D上的卓越性能。我们将代码和Arti4D公开。

🔬 方法详解

问题定义:现有铰接物体运动估计方法主要在受控环境下进行,依赖于固定的相机视角或对物体状态的完整观测。这使得它们难以应用于更真实的、非约束的环境,例如动态相机运动和部分遮挡的情况。因此,需要一种能够在动态环境中,仅通过部分观测就能准确估计铰接物体运动的方法。

核心思路:ArtiPoint的核心思路是结合深度点跟踪和因子图优化,利用RGB-D视频中的信息,稳健地估计铰接部件的轨迹和铰接轴。通过点跟踪建立不同帧之间的对应关系,然后利用因子图优化来约束铰接部件的运动,从而实现对铰接物体运动的准确估计。这种方法模仿了人类通过观察物体操作来推断铰接运动的方式。

技术框架:ArtiPoint的整体框架包含以下几个主要模块:1) 深度点跟踪模块,用于在连续帧之间建立点的对应关系;2) 铰接模型参数化模块,用于定义铰接物体的运动学模型;3) 因子图优化模块,用于根据点跟踪结果和铰接模型,优化铰接部件的轨迹和铰接轴。输入是RGB-D视频,输出是铰接物体的运动学模型参数和部件轨迹。

关键创新:ArtiPoint的关键创新在于将深度点跟踪与因子图优化相结合,从而能够在动态相机运动和部分可观察性下,稳健地估计铰接物体的运动。此外,Arti4D数据集的发布也为该领域的研究提供了宝贵的数据资源。

关键设计:深度点跟踪模块使用了基于特征匹配的方法,例如SIFT或SURF,来建立点之间的对应关系。因子图优化模块使用了GTSAM库,并定义了多种因子,包括点跟踪因子、铰接约束因子和正则化因子。损失函数的设计考虑了点跟踪的误差、铰接约束的违反程度以及模型参数的复杂度。网络结构方面,点跟踪模块可以使用现有的深度学习方法进行改进,例如使用PointNet++来提取点云特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ArtiPoint在Arti4D数据集上进行了评估,并与一系列经典的和基于学习的基线方法进行了比较。实验结果表明,ArtiPoint在铰接轴估计和部件轨迹估计方面均取得了显著的性能提升。具体而言,ArtiPoint在铰接轴估计的准确率方面优于现有方法,并且能够更准确地估计铰接部件的运动轨迹。

🎯 应用场景

ArtiPoint在机器人操作、人机交互、增强现实等领域具有广泛的应用前景。例如,机器人可以利用ArtiPoint来理解和模仿人类的物体操作行为,从而实现更智能的移动操作。在AR/VR应用中,ArtiPoint可以用于构建逼真的铰接物体模型,增强用户体验。此外,该技术还可以应用于工业自动化、智能家居等领域。

📄 摘要(原文)

Understanding the 3D motion of articulated objects is essential in robotic scene understanding, mobile manipulation, and motion planning. Prior methods for articulation estimation have primarily focused on controlled settings, assuming either fixed camera viewpoints or direct observations of various object states, which tend to fail in more realistic unconstrained environments. In contrast, humans effortlessly infer articulation by watching others manipulate objects. Inspired by this, we introduce ArtiPoint, a novel estimation framework that can infer articulated object models under dynamic camera motion and partial observability. By combining deep point tracking with a factor graph optimization framework, ArtiPoint robustly estimates articulated part trajectories and articulation axes directly from raw RGB-D videos. To foster future research in this domain, we introduce Arti4D, the first ego-centric in-the-wild dataset that captures articulated object interactions at a scene level, accompanied by articulation labels and ground-truth camera poses. We benchmark ArtiPoint against a range of classical and learning-based baselines, demonstrating its superior performance on Arti4D. We make code and Arti4D publicly available at https://artipoint.cs.uni-freiburg.de.