OASIS: Observation-Action Space Alignment via SE(3) Trajectory Prediction for Robotic Manipulation

📄 arXiv: 2605.25829v1 📥 PDF

作者: Xinzhe Chen, Sihua Ren, Liqi Huang, Haowen Sun, Mingyang Li, Xingyu Chen, Zeyang Liu, Xuguang Lan

分类: cs.RO, cs.AI

发布日期: 2026-05-25

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

OASIS:通过SE(3)轨迹预测对齐观察-动作空间,提升机器人操作性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉语言动作 SE(3)轨迹预测 动作空间对齐 刚体运动

📋 核心要点

  1. 现有VLA和WAM模型在机器人操作中,中间表示与动作空间的刚体几何结构不匹配,导致动作解码困难。
  2. OASIS通过SE(3)轨迹预测将中间表示与动作空间对齐,利用3D感知特征编码器和SE(3)轨迹预测器。
  3. 实验结果表明,OASIS在成功率和分布外泛化能力上优于VLA和WAM等基线方法。

📝 摘要(中文)

本文提出了一种名为OASIS的视觉运动策略,旨在通过SE(3)末端执行器轨迹预测来对齐中间表示与动作空间。现有的视觉-语言-动作(VLA)模型和世界动作模型(WAMs)通过引入辅助空间特征或未来视觉状态预测来增强机器人操作能力,但这些表示主要停留在观察空间,缺乏动作空间的刚体几何特性,迫使动作解码器隐式地恢复这种几何结构。OASIS将融合视觉-语言和度量深度特征的3D感知特征编码器与生成相机坐标系下末端执行器轨迹的SE(3)轨迹预测器相结合。动作解码器以预测器的姿态监督隐藏状态为条件,生成与刚体运动一致的动作块。在仿真和真实世界的实验中,OASIS在成功率和分布外泛化方面优于VLA和WAM基线。

🔬 方法详解

问题定义:现有VLA和WAM模型在机器人操作任务中,虽然利用视觉和语言信息增强了中间表示,但这些表示主要停留在观察空间,缺乏与动作空间相关的刚体几何信息。这导致动作解码器需要隐式地学习和恢复这种几何结构,增加了学习难度和降低了效率。现有方法难以有效利用动作空间的几何先验知识。

核心思路:OASIS的核心思路是通过SE(3)轨迹预测,将中间表示与动作空间对齐。具体来说,就是预测末端执行器在SE(3)空间中的轨迹,从而将视觉和语言信息转化为与动作空间直接相关的几何信息。这样,动作解码器就可以更容易地生成符合刚体运动规律的动作。

技术框架:OASIS包含三个主要模块:3D感知特征编码器、SE(3)轨迹预测器和动作解码器。首先,3D感知特征编码器融合视觉、语言和深度信息,生成3D特征表示。然后,SE(3)轨迹预测器基于这些特征预测末端执行器在相机坐标系下的SE(3)轨迹。最后,动作解码器以轨迹预测器的隐藏状态为条件,生成与刚体运动一致的动作序列。

关键创新:OASIS的关键创新在于将中间表示与动作空间对齐,通过SE(3)轨迹预测显式地建模了动作空间的几何信息。与现有方法相比,OASIS不需要动作解码器隐式地学习刚体几何结构,从而提高了学习效率和泛化能力。这种对齐方式使得模型能够更好地理解和执行复杂的机器人操作任务。

关键设计:3D感知特征编码器使用Transformer结构融合视觉、语言和深度信息。SE(3)轨迹预测器采用循环神经网络(RNN)结构,预测末端执行器在相机坐标系下的位姿序列。动作解码器使用Transformer结构,以轨迹预测器的隐藏状态为条件,生成动作序列。损失函数包括轨迹预测损失和动作预测损失,其中轨迹预测损失采用SE(3)空间中的距离度量,动作预测损失采用标准的交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OASIS在仿真和真实世界的实验中均取得了显著的性能提升。在仿真环境中,OASIS的成功率比VLA和WAM基线提高了10%以上。在真实世界环境中,OASIS在分布外泛化任务中表现出色,能够成功完成未见过的操作任务。实验结果表明,OASIS能够有效地利用动作空间的几何信息,提高机器人操作的鲁棒性和泛化能力。

🎯 应用场景

OASIS具有广泛的应用前景,可应用于各种机器人操作任务,例如:物体抓取、装配、操作工具等。该方法能够提升机器人在复杂环境中的操作能力和泛化性能,降低对训练数据的依赖,从而加速机器人在工业自动化、家庭服务、医疗康复等领域的应用。

📄 摘要(原文)

Recent vision-language-action (VLA) models and world action models (WAMs) advance robotic manipulation by enriching intermediate representations with auxiliary spatial features or future visual-state prediction. However, these representations largely remain within the observation space and do not share the rigid-body geometry of the action space, forcing the action decoder to implicitly recover this geometry. We propose OASIS, a visuomotor policy that aligns the intermediate representation with the action space via $SE(3)$ end-effector trajectory prediction. OASIS couples a 3D-aware feature encoder that fuses vision-language and metric-depth features with an $SE(3)$ trajectory predictor that produces a camera-frame end-effector trajectory. Conditioned on the predictor's pose-supervised hidden states, the action decoder generates action chunks consistent with rigid-body motion. Across simulation and real-world experiments, OASIS outperforms VLA and WAM baselines in success rate and out-of-distribution generalization. Our project page is available at https://npuhandsome.github.io/OASIS_web.