Learning Versatile Humanoid Manipulation with Touch Dreaming

作者: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao

分类: cs.RO

发布日期: 2026-04-14

💡 一句话要点

提出基于触觉梦想的人形机器人灵巧操作学习框架HTD，提升复杂操作任务性能。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人形机器人 灵巧操作 触觉感知 Transformer 强化学习

📋 核心要点

现有方法在复杂操作中难以兼顾全身稳定性和灵巧操作，且缺乏有效的接触感知。
提出HTD模型，通过触觉梦想增强Transformer学习，提升接触感知能力，实现更灵巧的操作。
实验表明，HTD在多个接触丰富的任务中显著优于基线方法，成功率提升明显。

📝 摘要（中文）

人形机器人有望提供通用辅助，但现实世界中的人形机器人移动操作仍然具有挑战性，因为它需要全身稳定性、灵巧的手部以及在频繁接触变化下的接触感知。本文研究了灵巧的、接触丰富的人形机器人移动操作。首先，开发了一个基于强化学习的全身控制器，在复杂操作过程中提供稳定的下半身和躯干执行。在此基础上，开发了一个全身人形机器人数据收集系统，该系统结合了基于VR的遥操作和人到人形机器人的运动映射，从而能够高效地收集真实世界演示数据。然后，提出了具有触觉梦想的人形Transformer（HTD），这是一种多模态编码器-解码器Transformer，它将触觉作为核心模态，与多视角视觉和本体感觉一起建模。HTD通过行为克隆进行单阶段训练，并通过触觉梦想进行增强：除了预测动作块之外，策略还预测未来的手部关节力和未来的触觉潜在变量，从而鼓励共享的Transformer主干学习用于灵巧交互的接触感知表示。在五个接触丰富的任务中，HTD在平均成功率上实现了相对于更强基线90.9%的相对改进。消融实验结果进一步表明，潜在空间触觉预测比原始触觉预测更有效，成功率相对提高了30%。这些结果表明，结合稳健的全身执行、可扩展的人形机器人数据收集和以预测触觉为中心的学习，可以实现真实世界中通用、高灵巧性的人形机器人操作。

🔬 方法详解

问题定义：人形机器人需要在复杂环境中执行灵巧操作，例如折叠毛巾、整理书籍等。这些任务需要机器人具备全身协调能力、灵巧的手部操作能力以及对接触的精确感知。现有方法往往难以同时满足这些要求，尤其是在接触频繁变化的情况下，机器人的稳定性和操作精度会受到严重影响。

核心思路：论文的核心思路是将触觉信息作为人形机器人操作学习的关键模态，并利用“触觉梦想”来增强模型的接触感知能力。通过预测未来的触觉信息，鼓励模型学习更鲁棒、更具预测性的接触表示，从而提高操作的稳定性和灵巧性。

技术框架：整体框架包括三个主要部分：1) 基于强化学习的全身控制器，用于提供稳定的下半身和躯干运动；2) 基于VR遥操作的数据收集系统，用于高效获取真实世界的操作演示数据；3) 具有触觉梦想的人形Transformer (HTD) 模型，用于学习接触感知的操作策略。HTD模型是一个多模态编码器-解码器Transformer，输入包括视觉、本体感觉和触觉信息，输出包括动作块、未来手部关节力和未来触觉潜在变量。

关键创新：最重要的创新点在于“触觉梦想”的概念，即在训练过程中，模型不仅需要预测动作，还需要预测未来的触觉信息。这种预测任务迫使模型学习更深层次的接触表示，从而提高其对环境变化的适应能力和操作的鲁棒性。与直接预测原始触觉数据相比，预测触觉潜在变量能够更好地捕捉接触的本质特征。

关键设计：HTD模型使用Transformer架构，编码器融合多模态信息，解码器预测动作和触觉信息。损失函数包括行为克隆损失（用于模仿人类动作）和触觉预测损失（用于学习接触表示）。触觉预测损失可以是原始触觉数据的预测误差，也可以是触觉潜在变量的预测误差。实验表明，使用触觉潜在变量的预测效果更好。数据收集系统采用VR遥操作和人到人形机器人的运动映射，提高了数据收集的效率和质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HTD模型在五个接触丰富的任务（Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving）中，平均成功率相对于更强的基线方法提升了90.9%。消融实验进一步证明，使用潜在空间触觉预测比直接预测原始触觉数据更有效，成功率相对提高了30%。这些数据充分验证了HTD模型的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种需要人形机器人进行灵巧操作的场景，例如家庭服务、医疗辅助、工业制造等。通过提升机器人的操作能力和环境适应性，可以使其更好地完成复杂任务，减轻人类负担，提高工作效率。未来，该技术有望推动人形机器人在更多领域的应用。

📄 摘要（原文）

Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.

Learning Versatile Humanoid Manipulation with Touch Dreaming

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理