MV-Actor: Aligning Multi-View Semantics and Spatial Awareness for Bimanual Manipulation

📄 arXiv: 2606.10899v1 📥 PDF

作者: Yinchen Tian, Huan Li, Muyao Peng, Xi Wang, Yan Wang, You Yang

分类: cs.RO

发布日期: 2026-06-09

备注: 14 pages,9 figures


💡 一句话要点

提出MV-Actor以解决双手操作中的多视角语义与空间感知问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 双手操作 多视角感知 语义交互 空间感知 机器人技术

📋 核心要点

  1. 现有的多视角策略在双手操作中独立处理每个视角,导致语义感知共享不足和空间感知不可靠。
  2. MV-Actor通过多视角语义交互和语义-空间令牌交互,构建统一的语义-空间表示,提升双手操作的感知能力。
  3. 在PerAct2基准测试中,MV-Actor实现了87.8%的成功率,且在真实场景中表现优于传统RGB和RGB-D方法。

📝 摘要(中文)

机器人操作在工业场景中得到了广泛应用。与单臂操作相比,双手操作配备了多个摄像头以从不同视角捕捉信息。然而,现有的多视角策略独立编码每个视角或浅层融合视角特征,导致语义感知共享有限和空间感知不可靠。本文提出了MV-Actor,一个多视角感知框架,为双手操作构建统一的语义-空间表示。MV-Actor首先通过多视角语义交互在视角间共享语义感知,然后利用语义-空间令牌交互将视觉语义与前馈重建模型特征结合,获得可靠的空间感知。最后,指导性度量深度修复模块在消费级深度噪声下,精炼退化的传感器深度,以提供更可靠的度量锚点。在PerAct2双手基准上的仿真实验中,MV-Actor达到了87.8%的最新平均成功率。在真实世界评估中,MV-Actor在视角变化频繁和不稳定的消费级深度下,超越了RGB和RGB-D基线,进一步证明了共享语义感知和可靠空间感知对双手操作的益处。

🔬 方法详解

问题定义:本文旨在解决双手操作中多视角语义与空间感知的不足,现有方法在视角处理上缺乏有效的语义共享与空间感知能力。

核心思路:MV-Actor通过多视角语义交互和语义-空间令牌交互,构建一个统一的语义-空间表示,从而增强双手操作的感知能力和可靠性。

技术框架:MV-Actor的整体架构包括三个主要模块:多视角语义交互模块、语义-空间令牌交互模块和指导性度量深度修复模块。前者用于共享语义信息,后者用于结合视觉语义与空间信息,最后一个模块则用于修复深度数据。

关键创新:MV-Actor的核心创新在于其多视角语义交互和语义-空间令牌交互的设计,使得不同视角间的语义信息能够有效共享,从而显著提升空间感知的可靠性。

关键设计:在设计中,MV-Actor采用了前馈重建模型特征与视觉语义的结合,使用特定的损失函数来优化语义与空间信息的融合,同时在深度修复模块中引入了针对消费级深度传感器噪声的处理策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MV-Actor在PerAct2基准测试中达到了87.8%的平均成功率,显著优于传统RGB和RGB-D基线,证明了其在频繁视角变化和不稳定深度条件下的优越性能,展示了共享语义感知和可靠空间感知的实际效益。

🎯 应用场景

该研究的潜在应用领域包括工业自动化、服务机器人和人机协作等场景。通过提升双手操作的感知能力,MV-Actor能够在复杂环境中更有效地执行任务,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Robotic manipulation has been widely applied in industrial scenarios. Compared with single-arm manipulation, bimanual manipulation is equipped with multiple cameras to capture information from different viewpoints. However, existing multi-view policies encode each view independently or fuse view features shallowly, resulting in limited sharing semantic perception and unreliable spatial awareness. In this paper, we propose \textbf{MV-Actor}, a multi-view perception framework that builds a unified semantic-spatial representation for bimanual manipulation. First, MV-Actor performs Multi-view Semantic Interaction to share semantic perception across views. Then it uses Semantic-Spatial Token Interaction to ground visual semantics with feed-forward reconstruction model features and acquire reliable spatial awareness. Finally, a Guided Metric Depth Repair module refines degraded sensor depth to provide more reliable metric anchors under consumer-grade depth noise. In simulation experiments conducted on the PerAct2 bimanual benchmark, MV-Actor achieves a state-of-the-art average success rate of 87.8\%. In real-world evaluations with more frequent viewpoint changes and unstable consumer-grade depth, MV-Actor outperforms both RGB and RGB-D baselines, further demonstrating the benefit of sharing semantic perception and reliable spatial awareness for bimanual manipulation.