Hybrid Offline-Online Reinforcement Learning for Sensorless, High-Precision Force Regulation in Surgical Robotic Grasping

📄 arXiv: 2602.23870v1 📥 PDF

作者: Edoardo Fazzari, Omar Mohamed, Khalfan Hableel, Hamdan Alhadhrami, Cesare Stefanini

分类: cs.RO

发布日期: 2026-02-27


💡 一句话要点

提出混合离线-在线强化学习方法,用于手术机器人抓取中无传感、高精度力控制。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 手术机器人 强化学习 无传感控制 力控制 数字孪生

📋 核心要点

  1. 现有手术机器人抓取力控制依赖末端传感器或解析补偿,存在硬件复杂或动态性能差的问题。
  2. 提出混合离线-在线强化学习框架,结合物理建模和RL,实现无传感高精度力控制。
  3. 实验表明,该方法在仿真和真实机器人上均表现出色,力误差分别低于1%和4%。

📝 摘要(中文)

肌腱驱动手术器械的精确抓取力调节受到电机动力学、传动柔性、摩擦和末端执行器力学之间的非线性耦合的限制。现有解决方案通常依赖于末端力传感器或解析补偿,这增加了硬件复杂性或降低了动态运动下的性能。本文提出了一种无传感控制框架,该框架结合了物理一致性建模和混合强化学习,以在近端驱动的手术末端执行器中实现高精度的末端力调节。我们开发了 da Vinci Xi 抓取机构的第一性原理数字孪生模型,该模型在统一的微分-代数公式中捕获了耦合的电气、传动和钳口动力学。为了安全地学习这种刚性和高度非线性系统中的控制策略,我们引入了一个三阶段流程:(i)一个后退水平 CMA-ES oracle,用于生成动态可行的专家轨迹,(ii)通过隐式 Q 学习进行完全离线策略学习,以确保在没有不安全探索的情况下进行稳定的初始化,以及(iii)使用 TD3 进行在线细化,以适应在线动态。由此产生的策略直接将近端测量映射到电机电压,并且不需要末端传感。在仿真中,控制器在多谐波钳口运动期间将抓取力保持在所需参考值的 1% 以内。硬件实验表明,在不同的轨迹中,平均力误差低于 4%,验证了从仿真到现实的迁移。学习到的策略包含大约 71k 个参数,并以 kHz 速率执行,从而可以进行实时部署。这些结果表明,高保真建模与结构化的离线-在线 RL 相结合,无需额外的传感即可恢复精确的末端力行为,从而为手术机器人操作提供了一种可扩展且机械兼容的解决方案。

🔬 方法详解

问题定义:手术机器人抓取力控制面临非线性耦合问题,包括电机动力学、传动柔性和摩擦力等因素,导致难以实现精确控制。现有方法依赖于末端力传感器或解析补偿,前者增加硬件复杂性,后者在动态运动下性能下降。

核心思路:利用高保真数字孪生模型模拟机器人抓取机构的物理特性,结合离线强化学习进行策略初始化,再通过在线强化学习进行策略优化,从而实现无传感的高精度力控制。这种混合方法旨在利用离线学习的稳定性和在线学习的适应性。

技术框架:该方法包含三个主要阶段:1) 使用 CMA-ES 优化器生成专家轨迹;2) 使用隐式 Q 学习进行完全离线策略学习,以确保策略的稳定初始化;3) 使用 TD3 算法进行在线策略优化,以适应实际环境中的动态变化。整体流程是从仿真环境到真实环境的迁移学习过程。

关键创新:该方法的核心创新在于结合了高保真物理建模和混合离线-在线强化学习。与传统方法相比,该方法无需额外的末端力传感器,降低了硬件成本和复杂性。同时,通过离线学习和在线优化的结合,提高了策略的稳定性和适应性。

关键设计:数字孪生模型基于 da Vinci Xi 抓取机构的第一性原理,采用微分-代数公式描述电气、传动和钳口动力学。离线学习阶段使用隐式 Q 学习,以确保策略的安全性。在线学习阶段使用 TD3 算法,并对奖励函数进行精心设计,以引导策略学习到期望的抓取力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在仿真实验中,该控制器能够将抓取力维持在目标值的1%以内。在真实机器人实验中,该控制器在不同轨迹下的平均力误差低于4%,验证了该方法从仿真到现实的迁移能力。该策略参数量约为71k,并能以kHz的频率执行,满足实时性要求。

🎯 应用场景

该研究成果可应用于手术机器人、康复机器人等领域,实现更精确、安全的力控制。通过无传感设计,降低了硬件成本和复杂性,提高了系统的可靠性和可扩展性。未来可进一步推广到其他需要高精度力控制的机器人应用场景,例如精密装配、柔性操作等。

📄 摘要(原文)

Precise grasp force regulation in tendon-driven surgical instruments is fundamentally limited by nonlinear coupling between motor dynamics, transmission compliance, friction, and distal mechanics. Existing solutions typically rely on distal force sensing or analytical compensation, increasing hardware complexity or degrading performance under dynamic motion. We present a sensorless control framework that combines physics-consistent modeling and hybrid reinforcement learning to achieve high-precision distal force regulation in a proximally actuated surgical end-effector. We develop a first-principles digital twin of the da Vinci Xi grasping mechanism that captures coupled electrical, transmission, and jaw dynamics within a unified differential-algebraic formulation. To safely learn control policies in this stiff and highly nonlinear system, we introduce a three-stage pipeline:(i)a receding-horizon CMA-ES oracle that generates dynamically feasible expert trajectories,(ii)fully offline policy learning via Implicit Q-Learning to ensure stable initialization without unsafe exploration, and (iii)online refinement using TD3 for adaptation to on-policy dynamics. The resulting policy directly maps proximal measurements to motor voltages and requires no distal sensing. In simulation, the controller maintains grasp force within 1% of the desired reference during multi-harmonic jaw motion. Hardware experiments demonstrate average force errors below 4% across diverse trajectories, validating sim-to-real transfer. The learned policy contains approximately 71k param and executes at kH rates, enabling real-time deployment. These results demonstrate that high-fidelity modeling combined with structured offline-online RL can recover precise distal force behavior without additional sensing, offering a scalable and mechanically compatible solution for surgical robotic manipulation.