Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splatting

作者: Yilong Wang, Cheng Qian, Ruomeng Fan, Edward Johns

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-11-22

备注: Videos are available on our project webpage at https://obact.github.io

💡 一句话要点

提出Observer Actor框架，通过主动视觉模仿学习提升双臂机器人的操作性能。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知 (Perception & SLAM)

关键词: 主动视觉 模仿学习 机器人操作 双臂机器人 3D高斯溅射

📋 核心要点

现有静态相机设置在机器人模仿学习中易受遮挡影响，导致策略性能下降。
ObAct框架通过动态分配观察者和执行者角色，优化观察视角，提升物体和夹具的可见性。
实验表明，ObAct在轨迹传递和行为克隆任务中，相比静态相机设置性能显著提升。

📝 摘要（中文）

本文提出了一种名为Observer Actor (ObAct) 的新型主动视觉模仿学习框架，其中观察者移动到最佳视觉观测位置，以便于执行者进行操作。我们研究了配备腕部相机的双臂机器人系统上的ObAct。在测试时，ObAct动态地分配观察者和执行者的角色：观察者手臂从三个图像构建3D高斯溅射 (3DGS) 表示，虚拟地探索该表示以找到最佳相机姿势，然后移动到该姿势；执行者手臂随后使用观察者的观测结果执行策略。这种公式提高了策略观测中物体和夹具的清晰度和可见性。因此，我们能够在更接近无遮挡训练分布的观测上训练灵巧策略，从而产生更鲁棒的策略。我们使用两种现有的模仿学习方法（轨迹传递和行为克隆）研究了这种公式，实验表明，ObAct 显著优于静态相机设置：在没有遮挡的情况下，轨迹传递提高了 145%，在有遮挡的情况下提高了 233%，而行为克隆分别提高了 75% 和 143%。

🔬 方法详解

问题定义：现有的机器人模仿学习方法通常依赖于固定的相机视角，这使得机器人容易受到遮挡的影响，尤其是在复杂的环境中。遮挡会导致策略的输入信息不完整，从而降低策略的鲁棒性和泛化能力。因此，如何克服遮挡问题，提高机器人模仿学习的性能是一个重要的挑战。

核心思路：ObAct的核心思路是通过主动调整观察者的视角来优化执行者的输入信息。具体来说，ObAct使用一个手臂作为观察者，通过构建场景的3D表示并虚拟探索，找到最佳的相机姿势，从而为执行者提供清晰、无遮挡的观测。这种动态调整视角的方式可以有效地解决遮挡问题，提高策略的鲁棒性。

技术框架：ObAct框架包含两个主要模块：观察者模块和执行者模块。观察者模块负责构建场景的3D高斯溅射(3DGS)表示，并通过虚拟探索找到最佳的相机姿势。执行者模块则根据观察者提供的观测结果，执行相应的策略。在测试时，两个手臂的角色会动态分配，以实现最佳的性能。

关键创新：ObAct的关键创新在于将主动视觉与模仿学习相结合。通过引入观察者角色，ObAct能够动态地调整视角，从而优化执行者的输入信息。这种主动视觉的方法可以有效地解决遮挡问题，提高策略的鲁棒性和泛化能力。此外，使用3DGS表示场景，可以有效地进行虚拟探索，找到最佳的相机姿势。

关键设计：ObAct使用3DGS来表示场景，这使得可以高效地进行虚拟探索，找到最佳的相机姿势。观察者通过三个图像构建3DGS表示。最佳相机姿势的选择标准是最大化物体和夹具的可见性。执行者模块可以使用现有的模仿学习方法，例如轨迹传递和行为克隆。损失函数的设计需要考虑物体和夹具的可见性，以鼓励观察者选择最佳的视角。

📊 实验亮点

实验结果表明，ObAct在轨迹传递和行为克隆任务中均取得了显著的性能提升。在没有遮挡的情况下，轨迹传递提高了145%，在有遮挡的情况下提高了233%。行为克隆分别提高了75%和143%。这些结果表明，ObAct能够有效地解决遮挡问题，提高机器人模仿学习的性能。

🎯 应用场景

ObAct框架可应用于各种需要机器人进行复杂操作的场景，例如装配、抓取、操作等。尤其是在存在遮挡或视角受限的环境中，ObAct能够显著提高机器人的操作性能和鲁棒性。该研究对于提升机器人智能化水平，拓展其应用领域具有重要意义。

📄 摘要（原文）

We propose Observer Actor (ObAct), a novel framework for active vision imitation learning in which the observer moves to optimal visual observations for the actor. We study ObAct on a dual-arm robotic system equipped with wrist-mounted cameras. At test time, ObAct dynamically assigns observer and actor roles: the observer arm constructs a 3D Gaussian Splatting (3DGS) representation from three images, virtually explores this to find an optimal camera pose, then moves to this pose; the actor arm then executes a policy using the observer's observations. This formulation enhances the clarity and visibility of both the object and the gripper in the policy's observations. As a result, we enable the training of ambidextrous policies on observations that remain closer to the occlusion-free training distribution, leading to more robust policies. We study this formulation with two existing imitation learning methods -- trajectory transfer and behavior cloning -- and experiments show that ObAct significantly outperforms static-camera setups: trajectory transfer improves by 145% without occlusion and 233% with occlusion, while behavior cloning improves by 75% and 143%, respectively. Videos are available at https://obact.github.io.

Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册