3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos
作者: Adam Hung, Bardienus Pieter Duisterhof, Jeffrey Ichnowski
分类: cs.RO
发布日期: 2026-03-09
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出3PoinTr,利用3D点轨迹从日常视频中预训练机器人操作策略。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 机器人操作 预训练 3D点轨迹 行为克隆 Transformer 具身差距 模仿学习
📋 核心要点
- 现有机器人策略训练需要大量演示数据,成本高昂,而直接从人类视频学习则面临机器人与人类之间的差异。
- 3PoinTr通过预测3D点轨迹作为中间表示,解耦了人类动作与机器人控制,实现了从日常人类视频中学习。
- 实验表明,3PoinTr仅需少量机器人演示即可在多种操作任务上实现良好的泛化性能,优于现有方法。
📝 摘要(中文)
本文提出3PoinTr,一种从日常且无约束的人类视频中预训练机器人策略的方法,从而能够从对人类而言自然的动作中进行学习。3PoinTr使用Transformer架构来预测3D点轨迹,作为一种中间的、与具体机器人无关的表示。3D点轨迹编码了目标规范、场景几何以及时空关系。我们使用Perceiver IO架构来提取紧凑的表示,以实现高效的行为克隆,即使点轨迹违反了下游特定机器人的约束。我们在模拟和真实世界的任务中进行了全面的评估,发现3PoinTr仅使用20个带有动作标签的机器人演示,就能在各种操作任务类别上实现强大的空间泛化。3PoinTr优于包括行为克隆方法以及先前从人类视频中进行预训练的方法在内的基线。我们还提供了3PoinTr的3D点轨迹预测与现有基线的比较评估,发现3PoinTr由于其基于单个Transformer的轻量级但富有表现力的架构,以及保留对部分遮挡点监督的训练公式,从而产生更准确和更高质量的点轨迹。
🔬 方法详解
问题定义:现有机器人策略学习方法通常依赖于大量的机器人演示数据,这在许多实际应用中是不可行的。直接从人类视频中学习是一种有前景的替代方案,但由于机器人和人类在运动学和策略上的差异(即具身差距),学习效果往往不佳,需要精心设计的受限人类动作。
核心思路:3PoinTr的核心思路是利用3D点轨迹作为一种与具体机器人无关的中间表示,从而弥合人类视频和机器人控制之间的具身差距。通过预测场景中关键点的3D轨迹,模型可以学习到目标规范、场景几何以及时空关系,而无需直接模仿人类的动作。
技术框架:3PoinTr的整体框架包括以下几个主要模块:1) 使用Transformer架构从人类视频中预测3D点轨迹;2) 使用Perceiver IO架构提取点轨迹的紧凑表示;3) 使用行为克隆方法,基于提取的表示训练机器人策略。该框架首先从人类视频中提取视觉特征,然后使用Transformer预测3D点轨迹。Perceiver IO将这些轨迹编码成一个低维向量,最后,机器人策略通过模仿学习,将这个向量映射到机器人动作。
关键创新:3PoinTr的关键创新在于使用3D点轨迹作为中间表示,以及采用Transformer架构进行点轨迹预测。与直接模仿人类动作的方法相比,3D点轨迹能够更好地捕捉任务的目标和场景的几何信息,从而实现更好的泛化性能。此外,Transformer架构能够有效地建模点之间的时空关系,提高点轨迹预测的准确性。
关键设计:在Transformer架构中,使用了自注意力机制来建模点之间的关系。训练过程中,采用了损失函数来监督点轨迹的预测,并特别关注了对部分遮挡点的监督,以提高模型的鲁棒性。Perceiver IO被用于将高维点轨迹压缩成低维表示,以便进行高效的行为克隆。实验中,使用了Adam优化器进行训练,并调整了学习率和batch size等超参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,3PoinTr在模拟和真实世界的任务中均取得了显著的性能提升。在仅使用20个带有动作标签的机器人演示的情况下,3PoinTr在各种操作任务类别上实现了强大的空间泛化,并且优于包括行为克隆方法以及先前从人类视频中进行预训练的方法在内的基线。此外,3PoinTr生成的3D点轨迹也比现有方法更准确和更高质量。
🎯 应用场景
3PoinTr具有广泛的应用前景,例如家庭服务机器人、工业自动化和医疗辅助机器人等。通过从大量的日常人类活动视频中学习,机器人可以掌握各种操作技能,从而更好地服务于人类。该方法降低了机器人学习的成本,并提高了机器人的泛化能力,使其能够适应不同的环境和任务。
📄 摘要(原文)
Data-efficient training of robust robot policies is the key to unlocking automation in a wide array of novel tasks. Current systems require large volumes of demonstrations to achieve robustness, which is impractical in many applications. Learning policies directly from human videos is a promising alternative that removes teleoperation costs, but it shifts the challenge toward overcoming the embodiment gap (differences in kinematics and strategies between robots and humans), often requiring restrictive and carefully choreographed human motions. We propose 3PoinTr, a method for pretraining robot policies from casual and unconstrained human videos, enabling learning from motions natural for humans. 3PoinTr uses a transformer architecture to predict 3D point tracks as an intermediate embodiment-agnostic representation. 3D point tracks encode goal specifications, scene geometry, and spatiotemporal relationships. We use a Perceiver IO architecture to extract a compact representation for sample-efficient behavior cloning, even when point tracks violate downstream embodiment-specific constraints. We conduct thorough evaluation on simulated and real-world tasks, and find that 3PoinTr achieves robust spatial generalization on diverse categories of manipulation tasks with only 20 action-labeled robot demonstrations. 3PoinTr outperforms the baselines, including behavior cloning methods, as well as prior methods for pretraining from human videos. We also provide evaluations of 3PoinTr's 3D point track predictions compared to an existing point track prediction baseline. We find that 3PoinTr produces more accurate and higher quality point tracks due to a lightweight yet expressive architecture built on a single transformer, in addition to a training formulation that preserves supervision of partially occluded points. Project page: https://adamhung60.github.io/3PoinTr/.