WristCompass: Kinematic Coupling as a Learnable Visual Concept for Ego-Camera Orientation
作者: Varun Nair, Vidyut Baradwaj, Jiahang He, Anya Singh, Jai Relan, Cabrel Happi
分类: cs.CV, cs.RO
发布日期: 2026-05-29
💡 一句话要点
WristCompass:利用运动耦合作为可学习的视觉概念,用于自 Ego 相机姿态估计
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: Ego相机姿态估计 运动耦合 腕部运动 模仿学习 GRU网络
📋 核心要点
- 现有方法在手部遮挡场景时,无法准确估计 Ego 相机姿态,阻碍了模仿学习。
- 利用腕部运动与相机姿态之间的运动耦合关系,构建 WristCompass 模型。
- WristCompass 在 Epic Kitchens 数据集上实现了 14.3° 的中值测地线误差,接近 10 亿参数场景模型的性能。
📝 摘要(中文)
从操作视频中恢复 Ego 相机姿态是分离手部运动和相机运动的先决条件,这是从以自我为中心的演示中进行模仿学习的关键步骤。直接的方法,即从场景几何推断姿态,在手部遮挡画面时会失效:在 TACO 基准测试中,一个拥有 10 亿参数的场景重建模型 VGGT 的表现甚至不如一个常数预测器。我们发现了一种替代的视觉概念,它恰好在场景几何缺失时出现:运动耦合动力学,即由手臂-肩膀-头部链条施加的腕部运动和相机姿态之间的结构化物理关系。我们发现这个概念是紧凑的(4D 腕部特征优于 126D 完整手部关键点),时序的(需要对短窗口进行 GRU 处理,而不是逐帧检索),并且具有物理基础(由于它植根于解剖学而不是场景外观,因此可以跨数据集零样本迁移)。仅在桌面操作上训练的 WristCompass 可以零样本迁移到 Epic Kitchens 烹饪视频,实现 14.3° 的中值测地线误差,并以 20 万 GRU 参数接近 10 亿参数场景模型的性能。
🔬 方法详解
问题定义:论文旨在解决从以自我为中心的操纵视频中恢复 Ego 相机姿态的问题。现有方法依赖于场景几何信息,但在手部遮挡场景中表现不佳,导致姿态估计精度显著下降。现有方法计算复杂度高,泛化能力弱,难以应用于真实场景。
核心思路:论文的核心思路是利用腕部运动与相机姿态之间的运动耦合关系。由于手臂-肩膀-头部链条的物理结构约束,腕部运动会直接影响 Ego 相机的姿态。因此,可以通过学习腕部运动的模式来推断相机姿态,而无需依赖场景几何信息。这种方法在手部遮挡场景中更加鲁棒,并且具有更好的泛化能力。
技术框架:WristCompass 的整体框架包括以下几个主要模块:1) 腕部关键点检测:从视频帧中提取腕部关键点。2) 腕部特征提取:基于腕部关键点计算腕部运动特征,例如腕部速度、加速度等。3) 时序建模:使用 GRU 网络对腕部运动特征进行时序建模,捕捉腕部运动的动态变化。4) 姿态估计:将 GRU 网络的输出映射到 Ego 相机姿态。
关键创新:论文最重要的技术创新点在于发现了运动耦合作为一种可学习的视觉概念,并将其应用于 Ego 相机姿态估计。与现有方法相比,WristCompass 不需要依赖场景几何信息,因此在手部遮挡场景中更加鲁棒。此外,WristCompass 使用紧凑的腕部特征,降低了计算复杂度,提高了泛化能力。
关键设计:论文的关键设计包括:1) 使用 4D 腕部特征,而不是 126D 完整手部关键点,以降低计算复杂度。2) 使用 GRU 网络对短窗口内的腕部运动特征进行时序建模,捕捉腕部运动的动态变化。3) 使用 L1 损失函数来训练 WristCompass 模型,以提高姿态估计的精度。
🖼️ 关键图片
📊 实验亮点
WristCompass 在 Epic Kitchens 烹饪视频数据集上实现了 14.3° 的中值测地线误差,接近 10 亿参数场景模型的性能。此外,WristCompass 仅使用 20 万 GRU 参数,远小于 10 亿参数场景模型,表明 WristCompass 具有更高的效率。
🎯 应用场景
该研究成果可应用于机器人操作、虚拟现实、增强现实等领域。例如,在机器人操作中,可以利用 WristCompass 来提高机器人对环境的感知能力,从而实现更精确的操作。在虚拟现实和增强现实中,可以利用 WristCompass 来提高用户体验,例如实现更自然的交互。
📄 摘要(原文)
Recovering ego-camera orientation from manipulation video is a prerequisite for disentangling hand motion from camera motion, a key step in imitation learning from egocentric demonstrations. The obvious approach, inferring orientation from scene geometry, fails when hands occlude the frame: VGGT, a 1B-parameter scene reconstruction model, scores worse than a constant predictor on the TACO benchmark. We identify an alternative visual concept that is present precisely when scene geometry is absent: kinematic coupling dynamics, the structured physical relationship between wrist motion and camera orientation imposed by the arm-shoulder-head chain. We find that this concept is compact (4D inter-wrist features outperform 126D full hand keypoints), temporal (requiring a GRU over short windows rather than per-frame retrieval), and physically grounded (transferring zero-shot across datasets because it is rooted in anatomy rather than scene appearance). Trained only on tabletop manipulation, WristCompass transfers zero-shot to Epic Kitchens cooking video, achieving 14.3$^\circ$ median geodesic error and approaching the performance of a 1B-parameter scene model at 200K GRU parameters.