Residual Reinforcement Learning for Robot Teleoperation under Stochastic Delays

📄 arXiv: 2605.15480v1 📥 PDF

作者: Kaize Deng, Zewen Yang

分类: cs.RO, cs.AI

发布日期: 2026-05-14

备注: Accepted at 23rd IFAC World Congress 2026


💡 一句话要点

提出延迟鲁棒残差强化学习,解决随机延迟下机器人遥操作问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人遥操作 强化学习 随机延迟 长短期记忆网络 状态估计 残差学习 混合控制 延迟鲁棒性

📋 核心要点

  1. 遥操作中随机延迟导致观测不连续,传统强化学习方法难以应对,产生高频振颤。
  2. 提出结合LSTM状态估计器和残差强化学习策略的混合控制框架,提升延迟鲁棒性。
  3. 实验表明,该方法在Franka Panda机器人上显著优于现有方法,实现稳定遥操作。

📝 摘要(中文)

本文提出了一种延迟鲁棒的强化学习混合控制框架,用于解决遥操作中随机通信延迟引入的信号不连续性问题,该问题会损害控制稳定性和降低控制性能。传统强化学习方法难以处理由延迟引起的观测,导致高频振颤。该框架结合了利用长短期记忆网络(LSTM)的状态估计器和残差强化学习策略,对随机延迟具有鲁棒性。LSTM从延迟观测中重建平滑、连续的状态估计,使强化学习智能体能够学习残差力矩补偿策略,从而平衡跟踪精度和速度平滑度。在Franka Panda机器人上的实验验证表明,该方法显著优于最先进的基线方法,即使在高方差随机延迟下也能确保鲁棒和稳定的遥操作。

🔬 方法详解

问题定义:遥操作中,随机通信延迟会引入观测信号的不连续性,这使得传统的强化学习方法难以直接应用。延迟导致的状态观测不准确,会引起控制系统的高频振颤,降低控制性能,甚至导致系统不稳定。因此,如何在存在随机延迟的情况下,实现稳定且高性能的机器人遥操作是一个关键问题。

核心思路:本文的核心思路是将状态估计与残差强化学习相结合。首先,利用LSTM网络对延迟的观测数据进行处理,重构出平滑、连续的状态估计。然后,强化学习智能体基于这些估计的状态,学习一个残差力矩补偿策略,该策略旨在对已有的控制策略进行微调,从而在跟踪精度和速度平滑度之间取得平衡。这种方法的核心在于利用状态估计来减轻延迟的影响,并利用残差学习来提高控制策略的适应性。

技术框架:该混合控制框架主要包含两个核心模块:基于LSTM的状态估计器和残差强化学习策略。首先,从遥操作环境中接收到的延迟观测数据被输入到LSTM状态估计器中,LSTM网络利用其记忆能力,对历史观测数据进行建模,从而生成对当前状态的平滑估计。然后,这个估计的状态被输入到强化学习智能体中,智能体根据当前状态,输出一个残差力矩,该力矩与原有的控制力矩相结合,共同作用于机器人。整个框架通过强化学习算法进行训练,目标是最小化跟踪误差和速度抖动。

关键创新:该方法最重要的创新点在于将状态估计与残差强化学习相结合,从而有效地解决了随机延迟带来的问题。与传统的直接使用延迟观测进行强化学习的方法相比,该方法通过LSTM网络对状态进行估计,减轻了延迟的影响,提高了控制策略的鲁棒性。此外,使用残差学习可以避免从头开始学习整个控制策略,而是对已有的控制策略进行微调,从而加快了学习速度,并提高了控制性能。

关键设计:LSTM状态估计器的网络结构需要根据具体的机器人和任务进行调整,通常包括多个LSTM层和全连接层。强化学习智能体可以使用各种强化学习算法,例如DDPG或SAC。损失函数通常包括跟踪误差和速度抖动两部分,可以通过调整权重来平衡跟踪精度和速度平滑度。残差力矩的范围需要进行限制,以避免对原有控制策略产生过大的干扰。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Franka Panda机器人上的遥操作任务中,显著优于现有的基线方法。在高方差随机延迟下,该方法能够实现更低的跟踪误差和更平滑的速度曲线,表明其具有更强的鲁棒性和更好的控制性能。具体的性能提升数据(例如跟踪误差降低百分比、速度抖动降低百分比)需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于需要远程控制的机器人应用中,例如深海探测、太空探索、危险环境处理等。在这些场景中,通信延迟是不可避免的,该方法可以提高机器人的控制性能和稳定性,降低操作风险。此外,该方法还可以应用于其他存在延迟的控制系统中,例如网络游戏、远程医疗等。

📄 摘要(原文)

Stochastic communication delays in teleoperation introduce signal discontinuities that undermine control stability and degrade control performance. Consequently, the conventional reinforcement learning (RL) methods struggle with the delayed observations due to the delay-induced observations, leading to high-frequency chattering. To address this, we propose a hybrid control framework, delay-resilient RL, integrating a state estimator utilizing Long Short-Term Memory (LSTM) with a residual RL policy, which is resilient to stochastic delays. The LSTM reconstructs smooth, continuous state estimates from delayed observations, enabling the RL agent to learn a residual torque compensation policy that balances tracking accuracy with velocity smoothness. Experimental validation on Franka Panda robots demonstrates that our approach significantly outperforms the state-of-the-art baselines, ensuring robust and stable teleoperation even under high-variance stochastic delays.