Learning Hybrid-Control Policies for High-Precision In-Contact Manipulation Under Uncertainty
作者: Hunter L. Brown, Geoffrey Hollinger, Stefan Lee
分类: cs.RO, cs.AI, cs.LG
发布日期: 2026-04-21
💡 一句话要点
提出MATCH算法,学习混合控制策略,提升不确定性下高精度接触操作性能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 混合控制 接触操作 机器人操作 不确定性 模式感知训练 sim-to-real
📋 核心要点
- 现有基于强化学习的姿态控制策略在处理含力约束的精细操作任务时,难以显式控制力,依赖低级控制器,易造成损坏。
- 提出混合位置-力控制策略,动态选择每个维度上的控制模式,并引入MATCH算法提升学习效率,显式反映混合控制的模式选择。
- 实验表明,MATCH在不确定性下销钉插入孔任务中,成功率显著提升,断裂次数减少,且数据效率与姿态控制策略相当。
📝 摘要(中文)
本文提出了一种混合位置-力控制策略,该策略学习动态选择在每个控制维度上何时使用力控制或位置控制。为了提高策略的学习效率,我们引入了用于接触处理的模式感知训练(MATCH),它调整策略动作概率以明确反映混合控制中的模式选择行为。我们使用脆弱的销钉插入孔任务在极端的定位不确定性下验证了MATCH的学习策略有效性。结果表明,在常见的状态估计误差类型下,MATCH显著优于仅基于姿态控制的策略,成功率提高了10%,销钉断裂次数减少了5倍。尽管在更大更复杂的动作空间中学习,MATCH也表现出与姿态控制策略相当的数据效率。在超过1600次的sim-to-real实验中,我们发现MATCH在高噪声环境中成功率是姿态策略的两倍(68% vs. 33%),并且在实验室条件下,在Franka FR3机器人上,平均施加的力比可变阻抗策略少约30%。
🔬 方法详解
问题定义:论文旨在解决在存在不确定性的情况下,如何实现高精度、安全的接触操作,例如脆弱的销钉插入孔任务。现有的基于姿态控制的强化学习方法在处理此类任务时,由于缺乏对力的显式控制,容易导致操作失败甚至损坏被操作对象。这些方法依赖于对末端执行器姿态的精确控制,但在实际应用中,状态估计误差和环境噪声会严重影响其性能。
核心思路:论文的核心思路是学习一种混合控制策略,该策略能够根据当前状态动态地选择在每个控制维度上使用力控制或位置控制。这种混合控制方式允许机器人同时考虑位置和力的约束,从而提高操作的精度和安全性。此外,论文还提出了Mode-Aware Training for Contact Handling (MATCH)算法,以提高策略的学习效率。
技术框架:整体框架包含强化学习环境、混合控制策略和MATCH算法。强化学习环境模拟了销钉插入孔任务,并提供状态信息(例如,销钉和孔的位置、姿态以及接触力)。混合控制策略是一个神经网络,它根据当前状态输出一个动作,该动作指定在每个控制维度上使用力控制还是位置控制,以及相应的目标位置或力。MATCH算法用于调整策略的动作概率,以显式地反映混合控制中的模式选择行为。
关键创新:论文的关键创新在于提出了混合位置-力控制策略和MATCH算法。混合控制策略允许机器人同时考虑位置和力的约束,从而提高了操作的精度和安全性。MATCH算法通过调整策略的动作概率,提高了策略的学习效率,并使其能够更好地适应不同的接触情况。
关键设计:MATCH算法的关键设计在于引入了一个模式选择器,该选择器根据当前状态预测在每个控制维度上应该使用力控制还是位置控制。然后,MATCH算法使用这个预测结果来调整策略的动作概率,使得策略更倾向于选择与模式选择器预测一致的动作。损失函数包括强化学习的奖励函数和一个额外的正则化项,该正则化项鼓励策略的动作概率与模式选择器的预测结果一致。网络结构采用多层感知机或循环神经网络,具体结构根据任务的复杂程度进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在销钉插入孔任务中,MATCH算法在常见的状态估计误差下,成功率比姿态控制策略提高了10%,销钉断裂次数减少了5倍。在sim-to-real实验中,MATCH在高噪声环境中的成功率是姿态策略的两倍(68% vs. 33%),并且在Franka FR3机器人上,平均施加的力比可变阻抗策略少约30%。这些结果表明,MATCH算法能够有效地学习混合控制策略,并在不确定性环境下实现高精度、安全的接触操作。
🎯 应用场景
该研究成果可应用于各种需要高精度和安全性的接触操作任务,例如电子元件组装、医疗器械操作、精密仪器制造等。通过学习混合控制策略,机器人可以在不确定性环境下更可靠地完成任务,减少损坏风险,提高生产效率。未来,该方法有望扩展到更复杂的任务和更广泛的应用领域。
📄 摘要(原文)
Reinforcement learning-based control policies have been frequently demonstrated to be more effective than analytical techniques for many manipulation tasks. Commonly, these methods learn neural control policies that predict end-effector pose changes directly from observed state information. For tasks like inserting delicate connectors which induce force constraints, pose-based policies have limited explicit control over force and rely on carefully tuned low-level controllers to avoid executing damaging actions. In this work, we present hybrid position-force control policies that learn to dynamically select when to use force or position control in each control dimension. To improve learning efficiency of these policies, we introduce Mode-Aware Training for Contact Handling (MATCH) which adjusts policy action probabilities to explicitly mirror the mode selection behavior in hybrid control. We validate MATCH's learned policy effectiveness using fragile peg-in-hole tasks under extreme localization uncertainty. We find MATCH substantially outperforms pose-control policies -- solving these tasks with up to 10% higher success rates and 5x fewer peg breaks than pose-only policies under common types of state estimation error. MATCH also demonstrates data efficiency equal to pose-control policies, despite learning in a larger and more complex action space. In over 1600 sim-to-real experiments, we find MATCH succeeds twice as often as pose policies in high noise settings (33% vs.~68%) and applies ~30% less force on average compared to variable impedance policies on a Franka FR3 in laboratory conditions.