Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splatting
作者: Yilong Wang, Cheng Qian, Ruomeng Fan, Edward Johns
分类: cs.RO, cs.CV, cs.LG
发布日期: 2025-11-22
备注: Videos are available on our project webpage at https://obact.github.io
💡 一句话要点
提出Observer Actor框架,通过主动视觉模仿学习提升双臂机器人的操作性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)
关键词: 主动视觉 模仿学习 机器人操作 双臂机器人 3D高斯溅射
📋 核心要点
- 现有静态相机设置在机器人模仿学习中易受遮挡影响,导致策略性能下降。
- ObAct框架通过动态分配观察者和执行者角色,优化观察视角,提升物体和夹具的可见性。
- 实验表明,ObAct在轨迹传递和行为克隆任务中,相比静态相机设置性能显著提升。
📝 摘要(中文)
本文提出了一种名为Observer Actor (ObAct) 的新型主动视觉模仿学习框架,其中观察者移动到最佳视觉观测位置,以便于执行者进行操作。我们研究了配备腕部相机的双臂机器人系统上的ObAct。在测试时,ObAct动态地分配观察者和执行者的角色:观察者手臂从三个图像构建3D高斯溅射 (3DGS) 表示,虚拟地探索该表示以找到最佳相机姿势,然后移动到该姿势;执行者手臂随后使用观察者的观测结果执行策略。这种公式提高了策略观测中物体和夹具的清晰度和可见性。因此,我们能够在更接近无遮挡训练分布的观测上训练灵巧策略,从而产生更鲁棒的策略。我们使用两种现有的模仿学习方法(轨迹传递和行为克隆)研究了这种公式,实验表明,ObAct 显著优于静态相机设置:在没有遮挡的情况下,轨迹传递提高了 145%,在有遮挡的情况下提高了 233%,而行为克隆分别提高了 75% 和 143%。
🔬 方法详解
问题定义:现有的机器人模仿学习方法通常依赖于固定的相机视角,这使得机器人容易受到遮挡的影响,尤其是在复杂的环境中。遮挡会导致策略的输入信息不完整,从而降低策略的鲁棒性和泛化能力。因此,如何克服遮挡问题,提高机器人模仿学习的性能是一个重要的挑战。
核心思路:ObAct的核心思路是通过主动调整观察者的视角来优化执行者的输入信息。具体来说,ObAct使用一个手臂作为观察者,通过构建场景的3D表示并虚拟探索,找到最佳的相机姿势,从而为执行者提供清晰、无遮挡的观测。这种动态调整视角的方式可以有效地解决遮挡问题,提高策略的鲁棒性。
技术框架:ObAct框架包含两个主要模块:观察者模块和执行者模块。观察者模块负责构建场景的3D高斯溅射(3DGS)表示,并通过虚拟探索找到最佳的相机姿势。执行者模块则根据观察者提供的观测结果,执行相应的策略。在测试时,两个手臂的角色会动态分配,以实现最佳的性能。
关键创新:ObAct的关键创新在于将主动视觉与模仿学习相结合。通过引入观察者角色,ObAct能够动态地调整视角,从而优化执行者的输入信息。这种主动视觉的方法可以有效地解决遮挡问题,提高策略的鲁棒性和泛化能力。此外,使用3DGS表示场景,可以有效地进行虚拟探索,找到最佳的相机姿势。
关键设计:ObAct使用3DGS来表示场景,这使得可以高效地进行虚拟探索,找到最佳的相机姿势。观察者通过三个图像构建3DGS表示。最佳相机姿势的选择标准是最大化物体和夹具的可见性。执行者模块可以使用现有的模仿学习方法,例如轨迹传递和行为克隆。损失函数的设计需要考虑物体和夹具的可见性,以鼓励观察者选择最佳的视角。
📊 实验亮点
实验结果表明,ObAct在轨迹传递和行为克隆任务中均取得了显著的性能提升。在没有遮挡的情况下,轨迹传递提高了145%,在有遮挡的情况下提高了233%。行为克隆分别提高了75%和143%。这些结果表明,ObAct能够有效地解决遮挡问题,提高机器人模仿学习的性能。
🎯 应用场景
ObAct框架可应用于各种需要机器人进行复杂操作的场景,例如装配、抓取、操作等。尤其是在存在遮挡或视角受限的环境中,ObAct能够显著提高机器人的操作性能和鲁棒性。该研究对于提升机器人智能化水平,拓展其应用领域具有重要意义。
📄 摘要(原文)
We propose Observer Actor (ObAct), a novel framework for active vision imitation learning in which the observer moves to optimal visual observations for the actor. We study ObAct on a dual-arm robotic system equipped with wrist-mounted cameras. At test time, ObAct dynamically assigns observer and actor roles: the observer arm constructs a 3D Gaussian Splatting (3DGS) representation from three images, virtually explores this to find an optimal camera pose, then moves to this pose; the actor arm then executes a policy using the observer's observations. This formulation enhances the clarity and visibility of both the object and the gripper in the policy's observations. As a result, we enable the training of ambidextrous policies on observations that remain closer to the occlusion-free training distribution, leading to more robust policies. We study this formulation with two existing imitation learning methods -- trajectory transfer and behavior cloning -- and experiments show that ObAct significantly outperforms static-camera setups: trajectory transfer improves by 145% without occlusion and 233% with occlusion, while behavior cloning improves by 75% and 143%, respectively. Videos are available at https://obact.github.io.