ActiveMimic: Egocentric Video Pretraining with Active Perception
作者: Xingyao Lin, Guojin Zhong, Tianyi Lu, Ziyi Ye, Yichen Zhu, Zuxuan Wu, Yu-Gang Jiang
分类: cs.RO, cs.CV
发布日期: 2026-06-04
备注: Project Page: https://activemimic.github.io/
💡 一句话要点
提出ActiveMimic以解决人类视频预训练不足问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 自我中心视频 主动感知 机器人预训练 深度学习 视频理解
📋 核心要点
- 现有方法在自我中心人类视频预训练中表现不佳,无法有效利用主动感知行为。
- ActiveMimic框架通过恢复相机和手腕轨迹,将相机运动视为视角动作,联合学习主动感知与操作。
- 实验结果表明,ActiveMimic在多项任务中超越基于人类视频的基线,并与机器人数据的最先进模型相当。
📝 摘要(中文)
以自我中心的人类视频为基础的预训练提供了一种可扩展的机器人数据替代方案,但基于此类视频预训练的模型表现始终低于基于机器人数据的模型。我们将这一差距归因于缺失的信号,即自我中心视频中的主动感知行为。为此,我们提出了ActiveMimic,一个预训练框架,通过单个佩戴式RGB相机恢复同步的相机和手腕轨迹,将相机运动建模为视角动作,并从真实场景中的自我中心人类视频中联合学习主动感知和操作。实验证明,ActiveMimic在多种主动感知需求的任务中始终超越基于人类视频的基线,并与基于机器人数据的最先进模型相匹配。
🔬 方法详解
问题定义:本论文旨在解决基于自我中心人类视频的预训练模型在性能上低于基于机器人数据模型的问题。现有方法未能有效利用自我中心视频中的主动感知信号,导致模型性能不足。
核心思路:论文提出的ActiveMimic框架通过恢复相机和手腕的同步轨迹,将相机运动视为一种视角动作,从而在预训练过程中联合学习主动感知和操作。这种设计旨在捕捉人类在操作过程中的动态视角变化。
技术框架:ActiveMimic的整体架构包括数据采集、轨迹恢复、动作建模和联合学习四个主要模块。首先,通过佩戴式RGB相机采集自我中心视频,然后恢复相机和手腕的运动轨迹,接着将相机运动建模为视角动作,最后进行联合学习。
关键创新:最重要的技术创新在于将相机运动视为主动感知的一部分,突破了传统方法将其视为噪声的局限。这一创新使得模型能够有效利用自我中心视频中的动态信息。
关键设计:在设计中,采用了特定的损失函数来平衡主动感知与操作的学习,同时在网络结构上结合了卷积神经网络和循环神经网络,以更好地捕捉时序信息和空间特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ActiveMimic在多项任务中表现优异,超越了基于人类视频的基线,且在某些任务中与基于机器人数据的最先进模型相当,显示出显著的性能提升。
🎯 应用场景
该研究的潜在应用领域包括机器人操作、虚拟现实和人机交互等。通过有效利用自我中心人类视频,ActiveMimic可以提升机器人在复杂环境中的自主操作能力,具有重要的实际价值和未来影响。
📄 摘要(原文)
Egocentric human video offers a scalable alternative to robot data for pretraining, yet models pretrained on such video consistently underperform those pretrained on robot data. We attribute this gap to a missing signal, the active perception behavior in egocentric videos, where humans continuously reposition their viewpoint during manipulation, inducing camera motion that standard pipelines treat as noise. To address this, we present ActiveMimic, a pretraining framework that recovers synchronized camera and wrist trajectories from a single body-worn RGB camera, models camera motion as a viewpoint action, and jointly learns active perception and manipulation from in-the-wild egocentric human video before adapting to a target robot. Empirically, real-world experiments across tasks with diverse active perception demands show that ActiveMimic consistently surpasses baselines pretrained on human video and matches state-of-the-art models pretrained on robot data. Further analysis provides evidence that active perception capability originates from egocentric human video pretraining rather than robot-specific fine-tuning, confirming active perception as the key to unlocking egocentric human video for robot pretraining.