Object-Centric Latent Action Learning

📄 arXiv: 2502.09680v2 📥 PDF

作者: Albina Klepach, Alexander Nikulin, Ilya Zisman, Denis Tarasov, Alexander Derevyagin, Andrei Polubarov, Nikita Lyubaykin, Vladislav Kurenkov

分类: cs.CV, cs.AI

发布日期: 2025-02-13 (更新: 2025-06-12)

备注: Accepted by Workshop on World Models at ICLR 2025


💡 一句话要点

提出对象中心潜在动作学习框架,解决具身智能在复杂视觉环境中动作学习的难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 潜在动作学习 对象中心表示 自监督学习 视觉干扰 模仿学习 强化学习

📋 核心要点

  1. 现有方法在复杂视觉环境中,由于动作标签缺失和视觉干扰,导致具身智能难以有效利用无标签视频数据。
  2. 该论文提出对象中心潜在动作学习框架,通过对象中心预训练解耦动作相关和干扰动态,提升代理动作标签的鲁棒性。
  3. 实验结果表明,该方法在复杂视觉任务中能有效减轻干扰物的影响,下游任务性能平均提升50%。

📝 摘要(中文)

本文提出了一种新颖的以对象为中心的潜在动作学习框架,旨在解决具身智能利用大量无标签互联网视频数据时,因缺乏动作标签和存在与动作相关的视觉干扰物而受限的问题。尽管最近的潜在动作策略优化(LAPO)在从视觉观察中推断代理动作标签方面显示出潜力,但当存在干扰物时,其性能会显著下降。为了解决这个局限性,我们利用自监督对象中心预训练来解耦与动作相关和分散注意力的动态。这使得LAPO能够专注于与任务相关的交互,从而产生更鲁棒的代理动作标签,从而实现更好的模仿学习,并通过少量动作标记的轨迹有效地适应智能体。我们在Distracting Control Suite(DCS)和Distracting MetaWorld(DMW)中的八个视觉复杂任务中评估了我们的方法。结果表明,对象中心预训练减轻了干扰物的负面影响,下游任务性能(平均回报(DCS)和成功率(DMW))提高了50%。

🔬 方法详解

问题定义:现有基于像素的潜在动作学习方法(如LAPO)在存在视觉干扰物时性能显著下降。这是因为干扰物会混淆智能体对真实动作的学习,导致生成的代理动作标签质量不高,最终影响下游任务的性能。因此,需要一种方法能够有效区分动作相关和干扰性的视觉信息,从而提高代理动作标签的准确性。

核心思路:论文的核心思路是利用对象中心表示来解耦动作相关和干扰性的视觉动态。通过预训练一个对象中心模型,将原始像素空间转换为对象表示空间,使得智能体能够专注于与任务相关的对象交互,从而忽略干扰物的影响。这种方法能够提高代理动作标签的鲁棒性,并提升下游任务的性能。

技术框架:该框架主要包含两个阶段:对象中心预训练和潜在动作学习。在对象中心预训练阶段,使用自监督学习方法训练一个对象中心模型,该模型能够将原始像素输入转换为对象表示。在潜在动作学习阶段,使用预训练的对象中心模型提取对象表示,然后使用LAPO算法学习代理动作标签,并进行模仿学习或强化学习。

关键创新:该论文的关键创新在于将对象中心表示引入到潜在动作学习框架中。与传统的基于像素的方法相比,对象中心表示能够更好地解耦动作相关和干扰性的视觉信息,从而提高代理动作标签的鲁棒性。此外,该论文还提出了一种有效的对象中心预训练方法,能够学习到高质量的对象表示。

关键设计:对象中心预训练采用自监督学习方法,例如使用对比学习或自编码器等。LAPO算法采用标准的策略梯度方法进行优化。损失函数包括模仿学习损失和强化学习损失。网络结构包括对象编码器、策略网络和价值网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Distracting Control Suite (DCS) 和 Distracting MetaWorld (DMW) 这两个包含视觉干扰物的benchmark上,相比于基线方法,下游任务性能(平均回报和成功率)平均提升了50%。这证明了对象中心预训练能够有效减轻干扰物的负面影响,提高代理动作标签的鲁棒性。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶、游戏AI等领域。通过利用大量的无标签视频数据,可以训练出更智能、更鲁棒的智能体,使其能够在复杂、动态的环境中完成各种任务。该方法降低了对人工标注数据的依赖,提高了智能体的泛化能力和适应性。

📄 摘要(原文)

Leveraging vast amounts of unlabeled internet video data for embodied AI is currently bottlenecked by the lack of action labels and the presence of action-correlated visual distractors. Although recent latent action policy optimization (LAPO) has shown promise in inferring proxy-action labels from visual observations, its performance degrades significantly when distractors are present. To address this limitation, we propose a novel object-centric latent action learning framework that centers on objects rather than pixels. We leverage self-supervised object-centric pretraining to disentangle action-related and distracting dynamics. This allows LAPO to focus on task-relevant interactions, resulting in more robust proxy-action labels, enabling better imitation learning and efficient adaptation of the agent with just a few action-labeled trajectories. We evaluated our method in eight visually complex tasks across the Distracting Control Suite (DCS) and Distracting MetaWorld (DMW). Our results show that object-centric pretraining mitigates the negative effects of distractors by 50%, as measured by downstream task performance: average return (DCS) and success rate (DMW).