StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception

📄 arXiv: 2605.09989v1 📥 PDF

作者: Evans Han, Yunfan Jiang, Yingke Wang, Haoyue Xiao, Huang Huang, Jianwen Xie, Jiajun Wu, Li Fei-Fei, Ruohan Zhang

分类: cs.RO, cs.CV

发布日期: 2026-05-11


💡 一句话要点

提出StereoPolicy框架,通过立体视觉感知提升机器人操作策略的几何推理能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 立体视觉 机器人操作 模仿学习 视觉运动策略 Transformer 几何推理

📋 核心要点

  1. 单目视觉策略在复杂或杂乱场景中缺乏深度感知,导致机器人难以进行精确的几何推理与操作。
  2. StereoPolicy通过立体图像对输入,利用Stereo Transformer隐式学习视差与空间对应,无需显式3D重建。
  3. 实验表明该方法在多个仿真基准及真实机器人任务中,显著优于现有的RGB、RGB-D及点云基线方法。

📝 摘要(中文)

近期机器人模仿学习在单目视觉运动策略方面取得了显著进展,但单目观测缺乏可靠的深度线索与空间感知,难以应对复杂场景下的精确操作。为此,本文提出了StereoPolicy,一种直接利用同步立体图像对来增强几何推理的视觉运动策略学习框架,且无需显式的3D重建或相机标定。StereoPolicy利用预训练的2D视觉编码器独立处理图像,并通过Stereo Transformer融合特征,从而隐式捕捉空间对应关系与视差线索。该框架可与基于扩散模型及预训练视觉-语言-动作(VLA)策略无缝集成。在RoboMimic、RoboCasa和OmniGibson三个仿真基准及真实机器人桌面与双臂移动操作实验中,StereoPolicy均表现出优于RGB、RGB-D、点云及多视角基线的性能,证明了立体视觉在连接2D预训练表征与3D几何理解方面的可扩展性与鲁棒性。

🔬 方法详解

问题定义:机器人模仿学习中,单目视觉输入难以提供精确的深度信息,导致在处理几何复杂或杂乱场景时,机器人难以准确估计物体位置与姿态,限制了操作的精度与泛化能力。

核心思路:利用立体视觉(Stereo Vision)的几何冗余性,通过双目图像间的视差关系隐式增强空间感知。该方法避开了昂贵的显式3D重建或精确的相机标定过程,直接在特征空间进行跨视角融合。

技术框架:系统包含三个核心部分:首先,使用共享权重的预训练2D视觉编码器(如DINOv2)提取左右视图的特征;其次,通过Stereo Transformer模块进行跨图像的注意力机制计算,实现特征对齐与融合;最后,将融合后的表征输入到下游策略网络(如Diffusion Policy或VLA)中执行动作预测。

关键创新:核心创新在于将立体视觉感知与现代视觉运动策略解耦,通过Transformer架构隐式学习视差线索,使得策略能够从立体图像中自动提取几何特征,而无需依赖传统的立体匹配算法或点云处理。

关键设计:采用Transformer的交叉注意力机制(Cross-Attention)作为融合算子,使模型能够动态关注左右视图间的对应像素点。该设计对相机外参具有一定的容忍度,且能无缝兼容现有的基于扩散模型或大模型的策略架构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

StereoPolicy在RoboMimic、RoboCasa和OmniGibson等多个基准测试中表现出色,在处理遮挡和复杂几何物体时,相比RGB-D和点云基线,成功率有显著提升。在真实机器人实验中,该方法在桌面操作及双臂移动任务中展现了极强的鲁棒性,证明了立体视觉作为一种可扩展模态,能有效弥补2D表征在3D几何理解上的不足。

🎯 应用场景

该研究适用于需要高精度空间感知的机器人操作任务,如家庭环境中的杂乱桌面整理、工业流水线上的精密装配,以及双臂移动机器人的复杂交互任务。其无需显式标定的特性,极大降低了在非结构化环境中部署机器人的门槛,具有极高的实际应用价值。

📄 摘要(原文)

Recent advances in robot imitation learning have yielded powerful visuomotor policies capable of manipulating a wide variety of objects directly from monocular visual inputs. However, monocular observations inherently lack reliable depth cues and spatial awareness, which are critical for precise manipulation in cluttered or geometrically complex scenes. To address this limitation, we introduce StereoPolicy, a new visuomotor policy learning framework that directly leverages synchronized stereo image pairs to strengthen geometric reasoning, without requiring explicit 3D reconstruction or camera calibration. StereoPolicy employs pretrained 2D vision encoders to process each image independently and fuses the resulting representations through a Stereo Transformer. This design implicitly captures spatial correspondence and disparity cues. The framework integrates seamlessly with diffusion-based and pretrained vision-language-action (VLA) policies, delivering consistent improvements over RGB, RGB-D, point cloud, and multi-view baselines across three simulation benchmarks: RoboMimic, RoboCasa, and OmniGibson. We further validate StereoPolicy on real-robot experiments spanning both tabletop and bimanual mobile manipulation settings. Our results underscore stereo vision as a scalable and robust modality that bridges 2D pretrained representations with 3D geometric understanding for robotic manipulation.