Choose What to Observe: Task-Aware Semantic-Geometric Representations for Visuomotor Policy

📄 arXiv: 2603.07875v1 📥 PDF

作者: Haoran Ding, Liang Ma, Yaxun Yang, Wen Yang, Tianyu Liu, Anqing Duan, Xiaodan Liang, Dezhen Song, Ivan Laptev, Yoshihiko Nakamura

分类: cs.RO

发布日期: 2026-03-09


💡 一句话要点

提出任务感知语义-几何表示,提升视觉运动策略对外观变化的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉运动策略 模仿学习 语义分割 深度估计 鲁棒性 泛化能力 任务感知 机器人

📋 核心要点

  1. 现有视觉运动策略易过拟合原始RGB图像中的视觉干扰因素,导致在背景变化或物体颜色改变等外观变化下表现不佳。
  2. 论文提出一种任务感知的观察接口,通过将视觉输入规范化为共享的语义-几何表示,提高策略对分布外外观变化的鲁棒性。
  3. 实验表明,该方法在RoboMimic、ManiSkill、RLBench和真实Franka机器人任务中,显著提升了策略在外观变化下的鲁棒性,同时保持了原始性能。

📝 摘要(中文)

本文提出了一种任务感知的观察接口,旨在将视觉输入规范化为共享表示,从而提高视觉运动策略对分布外(OOD)外观变化的鲁棒性,而无需修改或微调策略本身。给定RGB图像和任务相关实体的开放词汇表规范,我们使用SAM3分割目标对象和机器人/夹爪。我们构建了一个L0观察,通过在恒定背景上用预定义的语义颜色重新绘制分割的实体来实现。对于需要更强几何线索的任务,我们进一步通过深度引导的覆盖将来自Depth Anything 3的单目深度注入到分割区域中,从而产生统一的语义-几何观察(L1),它仍然是标准的3通道图像式输入。我们在RoboMimic (Lift)、ManiSkill YCB杂乱抓取、受控外观变化下的四个RLBench任务以及两个真实世界的Franka任务(ReachX和CloseCabinet)上进行了评估。在所有基准测试和策略骨干网络(Flow Matching Policy和SmolVLA)中,我们的接口在保持分布内性能的同时,显着提高了OOD视觉变化下的鲁棒性。

🔬 方法详解

问题定义:现有基于模仿学习的视觉运动策略,直接从RGB图像学习,容易受到视觉干扰因素的影响,例如背景变化、光照变化、物体颜色变化等。这些干扰因素会导致策略在新的环境中泛化能力差,即在分布外(OOD)数据上表现不佳。现有方法通常需要对策略进行微调或重新训练,成本较高。

核心思路:论文的核心思路是将原始RGB图像转换为一种任务感知的、规范化的语义-几何表示。这种表示只保留与任务相关的语义信息(例如目标物体和机器人的分割)和几何信息(例如深度),从而消除视觉干扰因素的影响,提高策略的泛化能力。这种表示方式可以看作是一种数据增强,但它不是随机的,而是基于任务的语义信息进行设计的。

技术框架:整体框架包含以下几个主要步骤:1) 使用SAM3分割RGB图像中的目标物体和机器人/夹爪;2) 构建L0观察:将分割的物体用预定义的语义颜色重新绘制在恒定背景上;3) 构建L1观察(可选):使用Depth Anything 3估计单目深度,并将深度信息注入到分割区域中,得到语义-几何表示。最终,策略直接基于L0或L1观察进行控制。

关键创新:最重要的创新点在于提出了一种任务感知的语义-几何表示,它能够有效地消除视觉干扰因素,提高策略的泛化能力。与现有方法相比,该方法不需要修改或微调策略本身,而是通过改变输入表示来实现鲁棒性。此外,该方法利用了预训练的分割模型(SAM3)和深度估计模型(Depth Anything 3),避免了从头开始训练这些模型,降低了计算成本。

关键设计:L0观察的关键设计在于使用预定义的语义颜色来表示不同的物体,从而消除颜色变化的影响。L1观察的关键设计在于将深度信息注入到分割区域中,从而提供更强的几何线索。论文中没有详细说明具体的参数设置、损失函数或网络结构,因为该方法主要关注输入表示的设计,而不是策略本身的设计。策略可以使用任何现有的视觉运动策略,例如Flow Matching Policy或SmolVLA。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个基准测试中显著提高了策略在外观变化下的鲁棒性。例如,在RoboMimic (Lift)任务中,该方法在背景颜色变化的情况下,成功率提高了20%以上。在ManiSkill YCB杂乱抓取任务中,该方法在物体颜色变化的情况下,成功率提高了15%以上。此外,该方法在真实世界的Franka机器人任务中也取得了良好的效果。

🎯 应用场景

该研究成果可应用于各种需要视觉运动控制的机器人任务,尤其是在环境外观变化频繁的场景中,例如家庭服务机器人、工业机器人和自动驾驶。通过提高策略的鲁棒性,可以减少对环境的依赖,降低部署和维护成本,并提高机器人的可靠性和安全性。

📄 摘要(原文)

Visuomotor policies learned from demonstrations often overfit to nuisance visual factors in raw RGB observations, resulting in brittle behavior under appearance shifts such as background changes and object recoloring. We propose a task-aware observation interface that canonicalizes visual input into a shared representation, improving robustness to out-of-distribution (OOD) appearance changes without modifying or fine-tuning the policy. Given an RGB image and an open-vocabulary specification of task-relevant entities, we use SAM3 to segment the target object and robot/gripper. We construct an L0 observation by repainting segmented entities with predefined semantic colors on a constant background. For tasks requiring stronger geometric cues, we further inject monocular depth from Depth Anything 3 into the segmented regions via depth-guided overwrite, yielding a unified semantic--geometric observation (L1) that remains a standard 3-channel, image-like input. We evaluate on RoboMimic (Lift), ManiSkill YCB grasping under clutter, four RLBench tasks under controlled appearance shifts, and two real-world Franka tasks (ReachX and CloseCabinet). Across benchmarks and policy backbones (Flow Matching Policy and SmolVLA), our interface preserves in-distribution performance while substantially improving robustness under OOD visual shifts.