Towards Generalizable Robotic Manipulation in Dynamic Environments

📄 arXiv: 2603.15620v1 📥 PDF

作者: Heng Fang, Shangru Li, Shuhan Wang, Xuanyang Xi, Dingkang Liang, Xiang Bai

分类: cs.CV, cs.RO

发布日期: 2026-03-16

🔗 代码/项目: GITHUB


💡 一句话要点

提出PUMA模型和DOMINO数据集,提升动态环境中机器人操作的泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 动态环境 视觉语言动作模型 时空推理 光流 短时预测 数据集 泛化性

📋 核心要点

  1. 现有VLA模型在动态环境中操作移动目标时表现不佳,主要原因是缺乏相关数据集和时空推理能力。
  2. 论文提出PUMA模型,通过整合历史光流和世界查询来预测对象未来状态,实现动态感知。
  3. 实验结果表明,PUMA模型在动态任务上取得了显著的性能提升,成功率超过基线6.3%。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在静态操作任务中表现出色,但在动态环境中处理移动目标时面临挑战。这种性能差距主要源于动态操作数据集的匮乏,以及主流VLA模型对单帧观测的依赖,限制了其时空推理能力。为了解决这个问题,我们引入了DOMINO,一个大规模数据集和基准,用于评估通用动态操作能力。DOMINO包含35个具有层级复杂度的任务,超过11万条专家轨迹,以及一个多维评估套件。通过全面的实验,我们系统地评估了现有VLA模型在动态任务上的表现,探索了有效的动态感知训练策略,并验证了动态数据的泛化性。此外,我们提出了PUMA,一个动态感知VLA架构,它通过整合场景中心的历史光流和专门的世界查询来隐式预测以对象为中心的未来状态,从而将历史感知与短时预测相结合。结果表明,PUMA实现了最先进的性能,在成功率上比基线提高了6.3%。此外,我们表明,在动态数据上训练可以培养强大的时空表示,并迁移到静态任务。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在静态环境中表现良好,但在动态环境中,由于目标移动,操作性能显著下降。主要痛点在于缺乏足够规模的动态操作数据集,以及现有模型对时序信息的利用不足,导致无法有效进行时空推理和预测。

核心思路:论文的核心思路是构建一个动态操作数据集DOMINO,并提出一个动态感知的VLA模型PUMA。PUMA通过结合历史信息和短时预测,使模型能够更好地理解和应对动态环境中的变化。通过学习动态数据,提升模型在动态环境中的泛化能力。

技术框架:PUMA模型的整体架构包括以下几个主要模块:1) 历史感知模块:利用光流提取场景的历史信息。2) 世界查询模块:通过查询机制获取场景中各个对象的状态信息。3) 短时预测模块:基于历史信息和对象状态,预测未来短时间内的对象状态。4) 动作生成模块:根据预测的对象状态,生成相应的操作动作。

关键创新:PUMA的关键创新在于其动态感知能力,它通过整合场景中心的历史光流和专门的世界查询来隐式预测以对象为中心的未来状态。这种方法将历史感知与短时预测相结合,使得模型能够更好地理解和应对动态环境中的变化。与现有方法相比,PUMA能够更有效地利用时序信息,从而提高在动态环境中的操作性能。

关键设计:PUMA模型中,历史感知模块使用光流来捕捉场景中的运动信息,世界查询模块使用注意力机制来关注场景中的关键对象。短时预测模块使用循环神经网络(RNN)或Transformer来建模对象状态的时序变化。损失函数包括动作预测损失和状态预测损失,用于优化模型的预测能力。具体参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

PUMA模型在DOMINO数据集上取得了显著的性能提升,成功率比现有基线模型提高了6.3%。此外,通过在动态数据上进行训练,PUMA模型能够学习到更鲁棒的时空表示,并成功迁移到静态操作任务中,表明了动态数据对于提升模型泛化能力的重要性。

🎯 应用场景

该研究成果可应用于各种需要机器人进行动态操作的场景,例如:自动驾驶中的动态避障、智能制造中的动态装配、以及家庭服务机器人中的动态物体抓取等。通过提升机器人在动态环境中的操作能力,可以实现更安全、更高效的自动化。

📄 摘要(原文)

Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. All code and data are available at https://github.com/H-EmbodVis/DOMINO.