PAWS: Perception of Articulation in the Wild at Scale from Egocentric Videos
作者: Yihao Wang, Yang Miao, Wenshuai Zhao, Wenyan Yang, Zihan Wang, Joni Pajarinen, Luc Van Gool, Danda Pani Paudel, Juho Kannala, Xi Wang, Arno Solin
分类: cs.CV
发布日期: 2026-03-26
备注: 32 pages, 13 figures. Project page: https://aaltoml.github.io/PAWS/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
PAWS:从第一视角视频大规模感知自然场景中的物体铰接
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 铰接感知 第一视角视频 手-物体交互 无监督学习 机器人操作
📋 核心要点
- 现有铰接感知方法依赖大量标注数据,限制了其在真实场景中的应用。
- PAWS从第一视角视频中的手-物体交互中直接提取物体铰接信息,无需手动标注。
- 实验表明,PAWS在铰接预测和机器人操作等下游任务中表现出显著优势。
📝 摘要(中文)
铰接感知旨在恢复铰接物体的运动和结构(例如,抽屉和橱柜),这对于机器人、模拟和动画中的3D场景理解至关重要。现有的基于学习的方法严重依赖于高质量3D数据和手动标注的监督训练,限制了可扩展性和多样性。为了解决这个限制,我们提出了PAWS,一种直接从大规模自然场景第一视角视频中的手-物体交互中提取物体铰接的方法。我们在公共数据集上评估了我们的方法,包括HD-EPIC和Arti4D数据集,与基线相比取得了显著的改进。我们进一步证明,提取的铰接有利于下游任务,包括微调3D铰接预测模型和实现机器人操作。
🔬 方法详解
问题定义:现有铰接感知方法依赖于大量的3D数据和人工标注,这限制了它们在真实世界场景中的可扩展性和泛化能力。获取高质量的3D数据和进行精确的人工标注成本高昂且耗时,难以应用于大规模的、多样化的场景。因此,如何利用无监督或弱监督的方式,从真实世界的视频数据中学习铰接信息是一个关键问题。
核心思路:PAWS的核心思路是从第一视角视频中观察到的手-物体交互来推断物体的铰接信息。通过分析手部动作与物体运动之间的关系,可以学习到物体铰接的结构和运动模式。这种方法避免了对大量3D数据和人工标注的依赖,从而提高了可扩展性和泛化能力。
技术框架:PAWS的整体框架包括以下几个主要模块:1) 手部和物体检测与跟踪:利用现有的目标检测和跟踪算法,从第一视角视频中检测和跟踪手部和物体。2) 运动分割:将视频分割成不同的运动片段,每个片段对应一个特定的手-物体交互。3) 铰接参数估计:对于每个运动片段,估计物体的铰接参数,包括铰接类型、铰接轴和运动范围。4) 铰接模型优化:利用估计的铰接参数,构建铰接模型,并通过优化算法对其进行优化。
关键创新:PAWS的关键创新在于它能够从大规模的、无标注的第一视角视频中自动提取物体铰接信息。与现有的方法相比,PAWS不需要人工标注,因此可以更容易地应用于真实世界的场景。此外,PAWS还利用手-物体交互作为监督信号,从而提高了铰接估计的准确性。
关键设计:PAWS的关键设计包括:1) 使用Transformer网络进行运动分割,以提高分割的准确性。2) 设计了一种新的损失函数,用于约束铰接参数的估计。该损失函数考虑了手部动作与物体运动之间的关系。3) 使用了一种基于优化的方法来优化铰接模型,以提高模型的准确性。
🖼️ 关键图片
📊 实验亮点
PAWS在HD-EPIC和Arti4D数据集上取得了显著的改进,证明了其有效性。实验结果表明,PAWS能够准确地估计物体的铰接参数,并且可以用于改进下游任务,例如3D铰接预测和机器人操作。与基线方法相比,PAWS在铰接预测的准确率上提高了显著的百分比。
🎯 应用场景
PAWS具有广泛的应用前景,包括机器人操作、虚拟现实、增强现实和3D场景理解。例如,机器人可以利用PAWS学习到的铰接信息来执行复杂的装配任务。在虚拟现实和增强现实中,PAWS可以用于创建更逼真的交互体验。此外,PAWS还可以用于改进3D场景理解算法,例如物体识别和场景重建。
📄 摘要(原文)
Articulation perception aims to recover the motion and structure of articulated objects (e.g., drawers and cupboards), and is fundamental to 3D scene understanding in robotics, simulation, and animation. Existing learning-based methods rely heavily on supervised training with high-quality 3D data and manual annotations, limiting scalability and diversity. To address this limitation, we propose PAWS, a method that directly extracts object articulations from hand-object interactions in large-scale in-the-wild egocentric videos. We evaluate our method on the public data sets, including HD-EPIC and Arti4D data sets, achieving significant improvements over baselines. We further demonstrate that the extracted articulations benefit downstream tasks, including fine-tuning 3D articulation prediction models and enabling robot manipulation. See the project website at https://aaltoml.github.io/PAWS/.