OmniD: Generalizable Robot Manipulation Policy via Image-Based BEV Representation

作者: Jilei Mao, Jiarui Guan, Yingjuan Tang, Qirui Hu, Zhihang Li, Junjie Yu, Yongjie Mao, Yunzhe Sun, Shuang Liu, Xiaozhu Ju

分类: cs.RO

发布日期: 2025-08-16

🔗 代码/项目: GITHUB

💡 一句话要点

提出Omni-Vision Diffusion Policy以解决机器人操作中的过拟合问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 视觉运动策略 多视角融合 鸟瞰图表示 可变形注意力 特征提取 泛化能力 自动化

📋 核心要点

现有的视觉运动策略容易对训练数据集过拟合，导致在异分布场景中的表现不佳。
本文提出的OmniD框架通过多视角融合生成统一的鸟瞰图表示，克服了现有方法的局限性。
实验结果表明，OmniD在不同场景下的表现显著优于最佳基线模型，提升幅度可达84%。

📝 摘要（中文）

视觉运动策略容易对训练数据集过拟合，例如固定的摄像机位置和背景。这种过拟合使得策略在同分布场景中表现良好，但在异分布泛化中表现不佳。此外，现有方法在融合多视角信息以生成有效的3D表示时也面临困难。为了解决这些问题，本文提出了Omni-Vision Diffusion Policy（OmniD），一个将图像观测合成统一鸟瞰图（BEV）表示的多视角融合框架。我们引入了一种基于可变形注意力的Omni特征生成器（OFG），以选择性地抽象与任务相关的特征，同时抑制视角特定的噪声和背景干扰。OmniD在同分布、异分布和少样本实验中分别比最佳基线模型提高了11%、17%和84%的平均性能。

🔬 方法详解

问题定义：本文旨在解决机器人操作中视觉运动策略的过拟合问题，现有方法在固定摄像机位置和背景下训练，导致在新环境中的泛化能力不足。

核心思路：提出Omni-Vision Diffusion Policy（OmniD），通过多视角图像融合生成统一的鸟瞰图（BEV）表示，以增强策略的泛化能力。设计中引入可变形注意力机制，以选择性地提取任务相关特征，减少视角特定噪声的影响。

技术框架：OmniD的整体架构包括图像输入模块、Omni特征生成器（OFG）和策略网络。OFG负责从多视角图像中提取和融合特征，而策略网络则基于生成的BEV表示进行决策。

关键创新：最重要的创新在于引入了可变形注意力机制的Omni特征生成器，能够有效地抑制背景干扰和视角噪声，与传统方法相比，显著提升了特征提取的准确性。

关键设计：在设计中，OFG的网络结构采用了多层卷积和注意力机制，损失函数则结合了重建损失和策略损失，以确保生成的BEV表示既准确又具备良好的泛化能力。训练过程中还采用了数据增强技术，以进一步提高模型的鲁棒性。

📊 实验亮点

实验结果显示，OmniD在同分布、异分布和少样本实验中分别比最佳基线模型提高了11%、17%和84%的平均性能，展现出显著的泛化能力和优越的操作效果。

🎯 应用场景

该研究的潜在应用领域包括自动化机器人操作、智能制造、无人驾驶等。通过提高机器人在不同环境中的操作能力，OmniD能够显著提升机器人在复杂任务中的适应性和效率，具有广泛的实际价值和未来影响。

📄 摘要（原文）

The visuomotor policy can easily overfit to its training datasets, such as fixed camera positions and backgrounds. This overfitting makes the policy perform well in the in-distribution scenarios but underperform in the out-of-distribution generalization. Additionally, the existing methods also have difficulty fusing multi-view information to generate an effective 3D representation. To tackle these issues, we propose Omni-Vision Diffusion Policy (OmniD), a multi-view fusion framework that synthesizes image observations into a unified bird's-eye view (BEV) representation. We introduce a deformable attention-based Omni-Feature Generator (OFG) to selectively abstract task-relevant features while suppressing view-specific noise and background distractions. OmniD achieves 11\%, 17\%, and 84\% average improvement over the best baseline model for in-distribution, out-of-distribution, and few-shot experiments, respectively. Training code and simulation benchmark are available: https://github.com/1mather/omnid.git

OmniD: Generalizable Robot Manipulation Policy via Image-Based BEV Representation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册