FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning
作者: Jason Jingzhou Liu, Yulong Li, Kenneth Shaw, Tony Tao, Ruslan Salakhutdinov, Deepak Pathak
分类: cs.RO, cs.AI, cs.CV, cs.LG
发布日期: 2025-02-24 (更新: 2025-04-24)
备注: Video results, codebases, and instructions: https://jasonjzliu.com/factr/
💡 一句话要点
FACTR:力觉引导的课程学习提升接触丰富任务的策略泛化性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 力觉反馈 课程学习 策略学习 接触丰富任务 机器人控制
📋 核心要点
- 现有机器人策略学习方法在接触丰富任务中,未能充分利用机器人手臂 readily available 的力反馈信息,导致泛化性不足。
- FACTR 提出一种力觉引导的课程学习方法,通过逐渐降低视觉输入的质量,引导策略更多地关注力觉信息。
- 实验表明,FACTR 显著提升了策略在接触丰富任务中对未见物体的泛化能力,相比基线方法提升了 43%。
📝 摘要(中文)
许多人类执行的接触丰富任务,如拾取盒子或擀面团,都依赖于力反馈来实现可靠执行。然而,这种在大多数机器人手臂中 readily available 的力信息,在遥操作和策略学习中却不常用。因此,机器人行为通常局限于不需要复杂力反馈的准静态运动任务。本文首先提出了一种低成本、直观的双边遥操作设置,将跟随臂的外部力反馈传递回教师臂,从而方便了复杂、接触丰富任务的数据收集。然后,我们介绍了一种策略学习方法 FACTR,它采用一种课程,在整个训练过程中以递减的强度破坏视觉输入。该课程防止了我们基于 Transformer 的策略过度拟合视觉输入,并引导策略正确地关注力模态。我们证明,通过充分利用力信息,与没有课程的基线方法相比,我们的方法显著提高了对未见物体的泛化能力,提升了 43%。视频结果、代码库和说明可在 https://jasonjzliu.com/factr/ 找到。
🔬 方法详解
问题定义:现有机器人策略学习方法在处理接触丰富的任务时,往往忽略了力反馈信息,或者过度依赖视觉信息,导致模型在面对新的物体时泛化能力较差。尤其是在需要精细力控制的任务中,例如抓取、装配等,仅仅依靠视觉信息难以实现鲁棒的控制。
核心思路:FACTR 的核心思路是通过课程学习的方式,逐步降低视觉信息的可靠性,迫使策略更多地依赖力反馈信息。通过这种方式,模型可以学习到更加鲁棒的策略,从而提高在未见物体上的泛化能力。这种方法类似于人类学习过程中,逐渐减少视觉依赖,更多地依靠触觉和力觉来完成任务。
技术框架:FACTR 的整体框架包含以下几个主要部分:1) 双边遥操作系统,用于收集高质量的力觉和视觉数据;2) 基于 Transformer 的策略网络,用于学习控制策略;3) 课程学习机制,用于逐步降低视觉输入的质量。具体流程是,首先通过遥操作系统收集数据,然后使用课程学习机制训练策略网络,最后将训练好的策略部署到机器人上进行测试。
关键创新:FACTR 的关键创新在于将课程学习与力觉信息相结合,提出了一种新的策略学习方法。与传统的策略学习方法相比,FACTR 能够更好地利用力反馈信息,从而提高策略的泛化能力。此外,FACTR 还提出了一种新的课程学习策略,通过逐步降低视觉输入的质量,引导策略更多地关注力觉信息。
关键设计:FACTR 使用基于 Transformer 的策略网络,该网络可以同时处理视觉和力觉信息。课程学习机制通过在视觉输入中添加噪声来实现,噪声的强度随着训练的进行逐渐降低。损失函数包括策略损失和力损失,策略损失用于优化控制策略,力损失用于鼓励策略更多地关注力觉信息。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
FACTR 在接触丰富任务中表现出显著的泛化能力提升。实验结果表明,与没有课程学习的基线方法相比,FACTR 在未见物体上的泛化能力提升了 43%。这一结果表明,通过充分利用力信息和课程学习,可以显著提高机器人在复杂环境中的适应性和鲁棒性。此外,论文还提供了详细的视频结果、代码库和说明,方便其他研究者复现和改进。
🎯 应用场景
FACTR 的潜在应用领域包括工业自动化、医疗机器人、家庭服务机器人等。在工业自动化中,可以用于提高机器人抓取、装配等任务的鲁棒性和效率。在医疗机器人中,可以用于提高手术的精确性和安全性。在家庭服务机器人中,可以用于提高机器人执行复杂任务的能力。该研究的实际价值在于提高机器人在复杂环境中的适应性和泛化能力,未来有望推动机器人技术在更多领域的应用。
📄 摘要(原文)
Many contact-rich tasks humans perform, such as box pickup or rolling dough, rely on force feedback for reliable execution. However, this force information, which is readily available in most robot arms, is not commonly used in teleoperation and policy learning. Consequently, robot behavior is often limited to quasi-static kinematic tasks that do not require intricate force-feedback. In this paper, we first present a low-cost, intuitive, bilateral teleoperation setup that relays external forces of the follower arm back to the teacher arm, facilitating data collection for complex, contact-rich tasks. We then introduce FACTR, a policy learning method that employs a curriculum which corrupts the visual input with decreasing intensity throughout training. The curriculum prevents our transformer-based policy from over-fitting to the visual input and guides the policy to properly attend to the force modality. We demonstrate that by fully utilizing the force information, our method significantly improves generalization to unseen objects by 43\% compared to baseline approaches without a curriculum. Video results, codebases, and instructions at https://jasonjzliu.com/factr/