Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances

📄 arXiv: 2605.00471v1 📥 PDF

作者: Xianbo Cai, Hideyuki Ichiwara, Hyogo Hiruma, Masaki Yoshikawa, Hiroshi Ito, Tetsuya Ogata

分类: cs.RO

发布日期: 2026-05-01

备注: 8 pages, 10 figures


💡 一句话要点

提出基于立体多阶段空间注意力的深度预测学习方法,用于视觉尺度变化下的实时移动操作。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动操作 立体视觉 空间注意力 深度预测学习 机器人控制

📋 核心要点

  1. 在开放、非结构化的真实环境中,机器人需要在自主移动的同时依赖板载视觉感知,这导致目标物体视觉尺度发生显著变化,影响基于视觉的运动生成。
  2. 论文提出一种基于立体多阶段空间注意力的深度预测学习方法,通过提取立体图像中的任务相关空间注意点,并结合分层循环架构进行闭环动作预测。
  3. 在真实世界的移动操作任务中,该方法在随机初始位置和视觉干扰条件下,相比模仿学习和视觉-语言-动作基线,展现出更高的鲁棒性和任务成功率。

📝 摘要(中文)

本文提出了一种基于立体多阶段空间注意力的深度预测学习方法,用于实时移动操作。该方法从立体图像中提取与任务相关的空间注意点,并通过分层循环架构将其与机器人状态相结合,用于闭环动作预测。在移动机械臂上,我们评估了该系统在四个真实世界的移动操作任务中的性能,包括刚性放置、铰接物体操作和可变形物体交互。在随机初始位置和视觉干扰条件下的实验表明,与相同的控制设置下的代表性模仿学习和视觉-语言-动作基线相比,该方法具有更高的鲁棒性和任务成功率。结果表明,结构化的立体空间注意力与预测时间建模相结合,为所评估的移动操作场景提供了一种有效的解决方案。

🔬 方法详解

问题定义:论文旨在解决移动操作任务中,由于机器人视角变化导致目标物体视觉尺度变化,从而影响基于视觉的运动生成的问题。现有方法难以有效应对这种视觉尺度的变化和干扰,导致任务成功率降低。

核心思路:论文的核心思路是利用立体视觉获取深度信息,并通过多阶段空间注意力机制提取与任务相关的关键空间特征。这些特征与机器人状态相结合,通过深度预测学习模型预测下一步动作,从而实现鲁棒的闭环控制。

技术框架:整体框架包含立体视觉感知模块、空间注意力模块和动作预测模块。立体视觉感知模块负责从双目图像中提取深度信息。空间注意力模块通过多阶段处理,提取与任务相关的空间特征。动作预测模块使用分层循环神经网络,将空间特征和机器人状态作为输入,预测下一步的动作。

关键创新:论文的关键创新在于提出了立体多阶段空间注意力机制。该机制利用立体视觉提供的深度信息,能够更准确地定位目标物体,并提取与任务相关的特征。多阶段的设计允许模型逐步聚焦于更精细的特征,从而提高鲁棒性。

关键设计:空间注意力模块采用多层卷积神经网络,每一层都包含一个注意力机制,用于选择重要的空间位置。损失函数包括动作预测损失和注意力损失,其中动作预测损失用于优化动作预测的准确性,注意力损失用于鼓励模型学习到与任务相关的注意力模式。分层循环神经网络采用GRU单元,用于建模时间序列数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在刚性放置、铰接物体操作和可变形物体交互等四个真实世界的移动操作任务中,所提出的方法在随机初始位置和视觉干扰条件下,相比模仿学习和视觉-语言-动作基线,具有更高的鲁棒性和任务成功率。具体性能数据未知,但强调了在相同控制设置下,该方法优于其他基线方法。

🎯 应用场景

该研究成果可应用于各种需要在复杂、动态环境中进行移动操作的场景,例如:仓库物流、家庭服务机器人、灾害救援等。通过提高机器人在视觉尺度变化和干扰下的鲁棒性,可以使机器人在这些场景中更可靠地完成任务,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Robots operating in open, unstructured real-world environments must rely on onboard visual perception while autonomously moving across different locations. Continuous changes in onboard camera viewpoints cause significant visual scale variations in target objects, affecting vision-based motion generation. In this work, we present a stereo multistage spatial attention-based deep predictive learning method for real-time mobile manipulation. The proposed methods extracts task-relevant spatial attention points from stereo images and integrates them with robot states through a hierarchical recurrent architecture for closed-loop action prediction. We evaluate the system on four real-world mobile manipulation tasks using a mobile manipulator, including rigid placement, articulated object manipulation, and deformable object interaction. Experiments under randomized initial positions and visual disturbance conditions demonstrate improved robustness and task success rates compared to representative imitation learning and vision-language-action baselines under identical control settings. The results indicate that structured stereo spatial attention combined with predictive temporal modeling provides an effective solution within the evaluated mobile manipulation scenarios.