Learning Versatile Humanoid Manipulation with Touch Dreaming

📄 arXiv: 2604.13015v1 📥 PDF

作者: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao

分类: cs.RO

发布日期: 2026-04-14


💡 一句话要点

提出基于触觉梦想的人形机器人灵巧操作学习框架HTD,提升复杂操作任务性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人形机器人 灵巧操作 触觉感知 Transformer 强化学习

📋 核心要点

  1. 现有方法在复杂操作中难以兼顾全身稳定性和灵巧操作,且缺乏有效的接触感知。
  2. 提出HTD模型,通过触觉梦想增强Transformer学习,提升接触感知能力,实现更灵巧的操作。
  3. 实验表明,HTD在多个接触丰富的任务中显著优于基线方法,成功率提升明显。

📝 摘要(中文)

人形机器人有望提供通用辅助,但现实世界中的人形机器人移动操作仍然具有挑战性,因为它需要全身稳定性、灵巧的手部以及在频繁接触变化下的接触感知。本文研究了灵巧的、接触丰富的人形机器人移动操作。首先,开发了一个基于强化学习的全身控制器,在复杂操作过程中提供稳定的下半身和躯干执行。在此基础上,开发了一个全身人形机器人数据收集系统,该系统结合了基于VR的遥操作和人到人形机器人的运动映射,从而能够高效地收集真实世界演示数据。然后,提出了具有触觉梦想的人形Transformer(HTD),这是一种多模态编码器-解码器Transformer,它将触觉作为核心模态,与多视角视觉和本体感觉一起建模。HTD通过行为克隆进行单阶段训练,并通过触觉梦想进行增强:除了预测动作块之外,策略还预测未来的手部关节力和未来的触觉潜在变量,从而鼓励共享的Transformer主干学习用于灵巧交互的接触感知表示。在五个接触丰富的任务中,HTD在平均成功率上实现了相对于更强基线90.9%的相对改进。消融实验结果进一步表明,潜在空间触觉预测比原始触觉预测更有效,成功率相对提高了30%。这些结果表明,结合稳健的全身执行、可扩展的人形机器人数据收集和以预测触觉为中心的学习,可以实现真实世界中通用、高灵巧性的人形机器人操作。

🔬 方法详解

问题定义:人形机器人需要在复杂环境中执行灵巧操作,例如折叠毛巾、整理书籍等。这些任务需要机器人具备全身协调能力、灵巧的手部操作能力以及对接触的精确感知。现有方法往往难以同时满足这些要求,尤其是在接触频繁变化的情况下,机器人的稳定性和操作精度会受到严重影响。

核心思路:论文的核心思路是将触觉信息作为人形机器人操作学习的关键模态,并利用“触觉梦想”来增强模型的接触感知能力。通过预测未来的触觉信息,鼓励模型学习更鲁棒、更具预测性的接触表示,从而提高操作的稳定性和灵巧性。

技术框架:整体框架包括三个主要部分:1) 基于强化学习的全身控制器,用于提供稳定的下半身和躯干运动;2) 基于VR遥操作的数据收集系统,用于高效获取真实世界的操作演示数据;3) 具有触觉梦想的人形Transformer (HTD) 模型,用于学习接触感知的操作策略。HTD模型是一个多模态编码器-解码器Transformer,输入包括视觉、本体感觉和触觉信息,输出包括动作块、未来手部关节力和未来触觉潜在变量。

关键创新:最重要的创新点在于“触觉梦想”的概念,即在训练过程中,模型不仅需要预测动作,还需要预测未来的触觉信息。这种预测任务迫使模型学习更深层次的接触表示,从而提高其对环境变化的适应能力和操作的鲁棒性。与直接预测原始触觉数据相比,预测触觉潜在变量能够更好地捕捉接触的本质特征。

关键设计:HTD模型使用Transformer架构,编码器融合多模态信息,解码器预测动作和触觉信息。损失函数包括行为克隆损失(用于模仿人类动作)和触觉预测损失(用于学习接触表示)。触觉预测损失可以是原始触觉数据的预测误差,也可以是触觉潜在变量的预测误差。实验表明,使用触觉潜在变量的预测效果更好。数据收集系统采用VR遥操作和人到人形机器人的运动映射,提高了数据收集的效率和质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HTD模型在五个接触丰富的任务(Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving)中,平均成功率相对于更强的基线方法提升了90.9%。消融实验进一步证明,使用潜在空间触觉预测比直接预测原始触觉数据更有效,成功率相对提高了30%。这些数据充分验证了HTD模型的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种需要人形机器人进行灵巧操作的场景,例如家庭服务、医疗辅助、工业制造等。通过提升机器人的操作能力和环境适应性,可以使其更好地完成复杂任务,减轻人类负担,提高工作效率。未来,该技术有望推动人形机器人在更多领域的应用。

📄 摘要(原文)

Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.