Combining Planning and Diffusion for Mobility with Unknown Dynamics
作者: Yajvan Ravan, Zhutian Yang, Tao Chen, Tomás Lozano-Pérez, Leslie Pack Kaelbling
分类: cs.RO, cs.AI
发布日期: 2024-10-09
备注: Submitted to ICRA 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
结合规划与扩散模型,解决未知动力学下长程移动操作任务
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 移动操作 扩散模型 运动规划 未知动力学 分层控制
📋 核心要点
- 现有方法在处理未知动力学的大型物体长程操作任务时面临挑战,难以同时兼顾操作、导航和物体移动。
- 论文提出一种分层算法,结合高层运动规划和低层扩散策略,将长程任务分解为可控的短程子任务。
- 实验表明,该方法在长程任务中表现优于传统扩散策略和刚性连接假设下的运动规划,并具有良好的泛化能力。
📝 摘要(中文)
本文提出了一种分层算法,用于解决动力学部分未知的长程机器人操作问题,例如仓库中移动大型物体(如手推车)。该方法利用基于扩散的行为克隆在短程问题上的有效性,将问题分解为高层抽象的、具有避障功能的运动规划问题,生成一系列路标点。然后,使用短程、相对运动扩散策略来依次实现这些路标点。在Spot机器人上进行了推拉办公椅的移动操作策略训练。实验结果表明,与在长程演示数据上训练的扩散策略或假设物体刚性连接的运动规划相比,该分层操作策略表现更佳,尤其是在任务范围增加时。更重要的是,该策略无需额外训练即可泛化到新的布局、抓取方式、椅子类型以及产生更大摩擦力的地板,显示了其在其他复杂移动操作问题中的潜力。
🔬 方法详解
问题定义:论文旨在解决动力学部分未知的长程移动操作问题,例如机器人推拉带有复杂运动特性的办公椅。现有方法要么难以处理长程任务,要么无法适应未知的物体动力学,或者对环境变化缺乏鲁棒性。刚性连接假设的运动规划方法无法准确建模物体与环境的交互,导致规划结果不准确。直接在长程演示数据上训练扩散策略,训练难度大,泛化能力差。
核心思路:论文的核心思路是将长程任务分解为高层抽象的运动规划和低层基于扩散的运动控制。高层规划负责生成一系列路标点,引导机器人避开障碍物并大致到达目标位置。低层扩散策略则负责在短程内精确地实现这些路标点,并处理未知的物体动力学。这种分层结构能够有效地利用规划的全局性和扩散策略的局部适应性。
技术框架:整体框架包含两个主要模块:高层运动规划器和低层扩散策略。高层运动规划器接收环境地图和目标位置作为输入,输出一系列路标点。低层扩散策略接收当前机器人状态、目标路标点以及物体状态作为输入,输出机器人的控制指令。机器人按照路标点的顺序依次执行,直到到达最终目标。
关键创新:论文的关键创新在于将运动规划和扩散策略相结合,形成一个分层的控制框架。这种框架既能利用运动规划的全局优化能力,又能利用扩散策略处理未知动力学的能力。此外,使用相对运动扩散策略,使得策略更容易学习和泛化。
关键设计:高层运动规划器可以使用任何现成的运动规划算法,例如RRT*。低层扩散策略使用Transformer网络结构,输入包括机器人状态、目标路标点和物体状态,输出机器人的控制指令。损失函数采用L2损失,用于衡量预测的控制指令与演示数据中的控制指令之间的差异。训练数据通过人工遥操作或仿真生成。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该分层策略在推拉办公椅的任务中,成功率达到8/10,而直接训练的扩散策略成功率为0/10,刚性连接假设的运动规划成功率为5/10。此外,该策略无需额外训练即可泛化到新的布局、抓取方式、椅子类型以及产生更大摩擦力的地板,展示了良好的泛化能力。
🎯 应用场景
该研究成果可应用于仓库机器人、家庭服务机器人等领域,解决复杂环境下的移动操作任务。例如,机器人可以在仓库中移动手推车、在家庭环境中整理物品等。该方法具有良好的泛化能力,可以适应不同的物体和环境,降低了部署成本和维护难度。未来,该方法可以进一步扩展到更复杂的任务,例如多机器人协同操作、人机协作等。
📄 摘要(原文)
Manipulation of large objects over long horizons (such as carts in a warehouse) is an essential skill for deployable robotic systems. Large objects require mobile manipulation which involves simultaneous manipulation, navigation, and movement with the object in tow. In many real-world situations, object dynamics are incredibly complex, such as the interaction of an office chair (with a rotating base and five caster wheels) and the ground. We present a hierarchical algorithm for long-horizon robot manipulation problems in which the dynamics are partially unknown. We observe that diffusion-based behavior cloning is highly effective for short-horizon problems with unknown dynamics, so we decompose the problem into an abstract high-level, obstacle-aware motion-planning problem that produces a waypoint sequence. We use a short-horizon, relative-motion diffusion policy to achieve the waypoints in sequence. We train mobile manipulation policies on a Spot robot that has to push and pull an office chair. Our hierarchical manipulation policy performs consistently better, especially when the horizon increases, compared to a diffusion policy trained on long-horizon demonstrations or motion planning assuming a rigidly-attached object (success rate of 8 (versus 0 and 5 respectively) out of 10 runs). Importantly, our learned policy generalizes to new layouts, grasps, chairs, and flooring that induces more friction, without any further training, showing promise for other complex mobile manipulation problems. Project Page: https://yravan.github.io/plannerorderedpolicy/