TAM: Torque Adaptation Module for Robust Motion Transfer in Manipulation

📄 arXiv: 2606.06218v1 📥 PDF

作者: Dongwon Son, Florian Shkurti, Jason Lee, Naman Shah, Beomjoon Kim, Dieter Fox

分类: cs.RO, cs.AI

发布日期: 2026-06-04


💡 一句话要点

提出扭矩适应模块TAM以解决机器人运动转移问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 扭矩适应模块 动态操作 机器人控制 策略适应 本体历史 零-shot学习 多机器人预训练

📋 核心要点

  1. 现有方法在不同机器人上执行相同策略时,常因动力学差异导致性能不佳,尤其在接触丰富的动态操作中。
  2. 本文提出的TAM模块通过调整扭矩命令,利用本体历史信息来适应不同机器人的行为,避免了对每个机器人或负载重新收集数据的需求。
  3. 实验结果表明,TAM在真实机器人上进行零-shot执行时,性能优于在线系统识别和RMA基线,提升了动态操作的鲁棒性。

📝 摘要(中文)

针对不同机器人之间的策略表现差异,本文提出了扭矩适应模块(TAM),旨在通过调整发送给机器人的扭矩命令来匹配理想机器人的行为。TAM在低级控制器与机器人的扭矩接口之间运行,利用嵌入本体历史的历史编码器和计算残余扭矩修正的扭矩适配器。TAM仅依赖本体历史,而不依赖于策略观察或动作空间,因此相同的TAM权重可以用于不同动作空间的策略。通过在随机化模拟中完全训练TAM,本文在真实的Franka Panda机器人上进行了零-shot评估,结果显示TAM在动态操作任务中显著提高了执行性能。

🔬 方法详解

问题定义:本文旨在解决不同机器人在执行相同策略时因动力学差异导致的性能不一致问题,现有方法如领域随机化和系统识别往往需要大量数据或产生保守策略。

核心思路:TAM模块通过调整扭矩命令来适应不同机器人的行为,依赖于本体历史信息而非策略观察,从而实现跨机器人策略的适应性。

技术框架:TAM的整体架构包括历史编码器和扭矩适配器。历史编码器将本体历史嵌入到潜在状态中,而扭矩适配器计算残余扭矩修正。TAM在低级控制器与机器人扭矩接口之间运行,确保实时适应。

关键创新:TAM的主要创新在于其不依赖于策略观察或动作空间,允许相同的权重在不同动作空间中重用,解决了传统方法的局限性。

关键设计:TAM的设计包括历史编码器的网络结构和扭矩适配器的损失函数,确保其在随机化模拟中进行有效训练,且无需真实机器人数据。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,TAM在真实Franka Panda机器人上进行零-shot执行时,相较于在线系统识别和RMA基线,显著提高了动态操作任务的执行性能,具体提升幅度达到XX%。

🎯 应用场景

该研究的潜在应用领域包括工业机器人、服务机器人和自动化制造等,能够提高机器人在动态环境中的适应能力和操作精度。未来,TAM有望在更广泛的机器人平台上推广应用,提升多种任务的执行效率。

📄 摘要(原文)

A policy tuned for one robot often behaves differently on another, whether due to the sim-to-real gap, unknown payloads, or the differing dynamics of two instances of the same robot. In contact-rich, dynamic manipulation, even small motion discrepancies can result in failure to track reference motion, since they disrupt the timing and modes of contact. Common remedies, such as domain randomization or system identification, either produce overly conservative task policies or require data that must be recollected for each robot or payload. We introduce the Torque Adaptation Module (TAM), a learned module that adapts the torque commands sent to the robot to match the behavior of an ideal robot. TAM operates between the low-level controller that tracks the policy's actions and the robot's torque interface. It includes a history encoder that embeds proprioceptive history into a latent state and a torque adaptor that computes residual torque corrections. Because TAM depends only on proprioceptive history and not on policy observations, or the action space, the same TAM weights can be reused to adapt policies with different action spaces (joint targets, end-effector targets, or direct torques). The policies themselves do not need to be trained with domain randomization of robot parameters. Instead, we offload the need for domain randomization to TAM by training it entirely in randomized simulation, using multi-robot pretraining followed by a robot-specific fine-tuning step that still requires no real-robot data. We evaluate TAM zero-shot on a real Franka Panda robot across dynamic manipulation tasks that include a vision-based box pushing policy (from RL), a flip policy (from BC), and an MPC ball-on-plate balancing. Our experiments show that TAM improves zero-shot real-robot execution compared to online system identification and RMA baselines and enables robust dynamic manipulation performance.