Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation
作者: Junjin Xiao, Dongyang Li, Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Feng Xiong, Mu Xu, Xing Wei, Zhiheng Ma, Qing Zhang, Wei-Shi Zheng
分类: cs.RO
发布日期: 2026-05-12
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
针对机器人操作,提出基于多视角隐变量先验的动作流形学习方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 视觉语言动作模型 多视角学习 动作流形学习 几何引导 深度估计 扩散模型
📋 核心要点
- 单目视觉的深度歧义和动作学习效率低下是VLA模型在机器人操作中的主要挑战。
- 利用多视角扩散模型生成新视角,并设计几何引导的Transformer对齐特征,提升空间感知能力。
- 通过动作流形学习直接预测有效动作,避免对非结构化目标回归,提高动作学习效率和鲁棒性。
📝 摘要(中文)
本文旨在解决视觉-语言-动作(VLA)模型中的空间感知和操作难题。针对单目输入带来的深度歧义问题,我们利用预训练的多视角扩散模型合成潜在的新视角图像,并提出了一种几何引导门控Transformer(G3T),该Transformer在3D几何引导下对齐多视角特征,同时自适应地过滤遮挡噪声。为了提高动作学习效率,我们引入了动作流形学习(AML),该方法直接在有效的动作流形上预测动作,避免了对噪声或速度等非结构化目标进行低效回归。在LIBERO、RoboTwin 2.0和真实机器人任务上的实验表明,我们的方法比SOTA基线方法实现了更高的成功率和鲁棒性。
🔬 方法详解
问题定义:论文旨在解决机器人操作任务中,由于单目视觉输入导致的深度信息缺失以及传统动作学习方法效率低下的问题。现有方法通常直接回归非结构化的动作目标(如关节速度),导致学习效率低下,且容易受到噪声干扰。
核心思路:论文的核心思路是利用多视角信息来弥补单目视觉的深度信息不足,并通过动作流形学习直接在有效的动作空间中进行预测,从而提高动作学习的效率和鲁棒性。具体来说,通过预训练的多视角扩散模型生成新视角图像,并利用几何信息对齐不同视角的特征,从而提升空间感知能力。同时,避免直接回归低效的动作目标,而是学习一个动作流形,直接预测流形上的有效动作。
技术框架:整体框架包含以下几个主要模块:1) 多视角图像生成模块:利用预训练的多视角扩散模型,根据单目输入生成多个新视角的图像。2) 几何引导门控Transformer (G3T):该模块用于对齐多视角特征,并利用3D几何信息引导特征融合,同时过滤遮挡噪声。3) 动作流形学习 (AML) 模块:该模块学习一个有效的动作流形,并直接在该流形上预测动作。整个流程是,首先通过多视角图像生成模块和G3T提取多视角特征,然后将特征输入到AML模块中,预测最终的机器人动作。
关键创新:论文的关键创新点在于:1) 提出了利用多视角扩散模型生成新视角图像的方法,有效缓解了单目视觉的深度歧义问题。2) 设计了几何引导门控Transformer (G3T),能够有效地对齐多视角特征,并过滤遮挡噪声。3) 提出了动作流形学习 (AML) 方法,避免了对非结构化动作目标的低效回归,提高了动作学习的效率和鲁棒性。
关键设计:G3T的关键设计在于利用3D几何信息引导特征对齐,并使用门控机制自适应地过滤遮挡噪声。AML的关键设计在于学习一个低维的动作流形,并使用流形上的坐标来表示动作,从而避免了对高维、非结构化动作目标的直接回归。具体的损失函数可能包括多视角重建损失、特征对齐损失和动作预测损失等。网络结构细节(如Transformer的层数、隐藏层维度等)和参数设置在论文中应该有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在LIBERO、RoboTwin 2.0和真实机器人任务上均取得了显著的性能提升。相较于SOTA基线方法,该方法在成功率和鲁棒性方面均有明显优势。具体的性能数据需要在论文中查找,例如成功率提升百分比等。
🎯 应用场景
该研究成果可应用于各种需要机器人操作的场景,例如:工业自动化、家庭服务机器人、医疗辅助机器人等。通过提高机器人操作的成功率和鲁棒性,可以显著提升这些应用场景的效率和安全性。未来,该方法有望进一步扩展到更复杂的环境和任务中,实现更智能、更灵活的机器人操作。
📄 摘要(原文)
This paper tackles spatial perception and manipulation challenges in Vision-Language-Action (VLA) models. To address depth ambiguity from monocular input, we leverage a pre-trained multi-view diffusion model to synthesize latent novel views and propose a Geometry-Guided Gated Transformer (G3T) that aligns multi-view features under 3D geometric guidance while adaptively filtering occlusion noise. To improve action learning efficiency, we introduce Action Manifold Learning (AML), which directly predicts actions on the valid action manifold, bypassing inefficient regression of unstructured targets like noise or velocity. Experiments on LIBERO, RoboTwin 2.0, and real-robot tasks show our method achieves superior success rate and robustness over SOTA baselines. Project page: https://junjxiao.github.io/Multi-view-VLA.github.io/.