Anticipatory Task and Motion Planning
作者: Roshan Dhakal, Duc M. Nguyen, Tom Silver, Xuesu Xiao, Gregory J. Stein
分类: cs.RO
发布日期: 2024-07-18
💡 一句话要点
提出基于学习的预测性任务与运动规划,解决连续任务场景中的副作用问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 任务与运动规划 预测性规划 强化学习 机器人 连续任务 副作用避免
📋 核心要点
- 现有任务与运动规划方法在连续任务场景中缺乏对未来任务的考虑,导致产生不利于后续任务的副作用。
- 论文提出预测性任务与运动规划,利用学习模型预测未来任务成本,指导当前任务的规划,避免产生副作用。
- 实验表明,该方法在模拟和真实机器人平台上均能有效降低多任务场景中的平均任务成本,提升规划效率。
📝 摘要(中文)
本文研究了连续任务与运动规划(TAMP)问题,其中机器人被分配连续空间中的重排列任务,环境在每个任务之间保持不变。由于缺乏对未来任务的预先了解,现有的(短视)规划策略无意中引入了阻碍后续任务完成的副作用,例如,通过阻碍未来的访问或操作。本文提出了预测性任务与运动规划,其中来自学习模型的预期未来成本估计用于指导基于模型的TAMP规划器生成的方案选择,从而避免此类副作用,选择既能完成任务又能最小化总体成本的环境配置。在可移动障碍物导航和橱柜装载领域的模拟多任务部署中,每个任务的平均成本分别提高了32.7%和16.7%。当提前给予准备环境的时间时,我们基于学习的增强规划方法分别提高了83.1%和22.3%。两者都展示了我们方法的价值。最后,我们还在真实世界的Fetch移动机械臂上演示了预测性TAMP。
🔬 方法详解
问题定义:论文旨在解决连续任务与运动规划(TAMP)问题,即机器人需要在同一环境中依次完成多个重排列任务。现有方法通常是短视的,只关注当前任务的完成,而忽略了当前动作可能对未来任务产生的不利影响,例如阻塞了后续任务所需的物体或路径。这种副作用会导致整体任务完成效率降低。
核心思路:论文的核心思路是引入“预测性”规划,即在规划当前任务时,不仅考虑当前任务的完成,还要预测当前动作对未来任务的影响。通过学习一个模型来估计未来任务的成本,并将该成本纳入当前任务的规划目标中,从而避免产生不利于未来任务的副作用。
技术框架:整体框架包含两个主要模块:基于模型的TAMP规划器和学习的未来成本预测模型。首先,基于模型的TAMP规划器生成多个可能的任务执行方案。然后,学习的未来成本预测模型评估每个方案对未来任务的影响,给出预期成本。最后,综合考虑当前任务的完成成本和未来任务的预期成本,选择最优的方案执行。
关键创新:最重要的创新点在于将学习的未来成本预测模型融入到TAMP规划中,从而使规划器具备了“预测性”。与传统的短视规划方法相比,该方法能够更好地权衡当前任务和未来任务之间的关系,避免产生副作用,提高整体任务完成效率。
关键设计:论文中,未来成本预测模型可以使用各种机器学习方法进行训练,例如神经网络、高斯过程等。模型的输入可以是当前环境的状态和当前任务的执行方案,输出是未来任务的预期成本。在选择最优方案时,可以使用加权和的方式将当前任务的完成成本和未来任务的预期成本结合起来,权重可以根据实际情况进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在模拟的可移动障碍物导航和橱柜装载任务中,该方法分别实现了32.7%和16.7%的平均单任务成本降低。当给予机器人提前准备环境的时间时,性能提升更为显著,分别达到了83.1%和22.3%。此外,该方法还在真实的Fetch移动机械臂上进行了验证,证明了其在实际环境中的可行性。
🎯 应用场景
该研究具有广泛的应用前景,例如在仓库自动化、家庭服务机器人、医疗机器人等领域。通过预测未来任务的需求,机器人可以更智能地规划自己的动作,避免阻塞关键资源,提高工作效率和服务质量。此外,该方法还可以应用于其他需要连续决策的场景,例如自动驾驶、游戏AI等。
📄 摘要(原文)
We consider a sequential task and motion planning (tamp) setting in which a robot is assigned continuous-space rearrangement-style tasks one-at-a-time in an environment that persists between each. Lacking advance knowledge of future tasks, existing (myopic) planning strategies unwittingly introduce side effects that impede completion of subsequent tasks: e.g., by blocking future access or manipulation. We present anticipatory task and motion planning, in which estimates of expected future cost from a learned model inform selection of plans generated by a model-based tamp planner so as to avoid such side effects, choosing configurations of the environment that both complete the task and minimize overall cost. Simulated multi-task deployments in navigation-among-movable-obstacles and cabinet-loading domains yield improvements of 32.7% and 16.7% average per-task cost respectively. When given time in advance to prepare the environment, our learning-augmented planning approach yields improvements of 83.1% and 22.3%. Both showcase the value of our approach. Finally, we also demonstrate anticipatory tamp on a real-world Fetch mobile manipulator.