Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA
作者: Tutian Tang, Xingyu Ji, Wanli Xing, Ce Hao, Wenqiang Xu, Lin Shao, Cewu Lu, Qiaojun Yu, Jiangmiao Pang, Kaifeng Zhang
分类: cs.RO
发布日期: 2026-03-09
备注: Project Homepage: https://sites.google.com/view/mode-vla
💡 一句话要点
提出基于强化学习辅助遥操作和专家混合VLA的类人灵巧操作方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 灵巧操作 视觉语言动作模型 强化学习 遥操作 多模态融合 接触感知 机器人操作
📋 核心要点
- 现有VLA模型在灵巧操作和接触感知方面存在不足,难以处理复杂的掌内操作任务。
- 提出IMCopilot和MoDE-VLA框架,利用强化学习辅助遥操作数据采集,并融合异构力/触觉信息。
- 实验表明,该方法在灵巧接触任务中,成功率相较于基线方法提升了两倍。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在机器人操作领域取得了显著进展,但其应用主要局限于低自由度末端执行器执行简单的视觉引导抓取放置任务。将这些模型扩展到类人双手动灵巧操作,特别是接触丰富的掌内操作,在高保真数据采集、多技能学习和多模态传感器融合方面提出了关键挑战。本文提出了一个集成框架来解决这些瓶颈,该框架建立在两个组件之上。首先,我们引入了IMCopilot(掌内操作副驾驶),这是一套强化学习训练的原子技能,它扮演着双重角色:它作为共享自主助手来简化遥操作数据收集,并且它作为VLA的可调用低级执行原语。其次,我们提出了MoDE-VLA(专家混合VLA),一种将异构力和触觉模态无缝集成到预训练VLA骨干中的架构。通过利用残差注入机制,MoDE-VLA能够在不降低模型预训练知识的情况下实现接触感知细化。我们在四个复杂度递增的任务上验证了我们的方法,证明了在灵巧的接触丰富任务中,成功率比基线提高了两倍。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在机器人操作领域的应用主要集中在简单的抓取放置任务上,难以胜任需要高自由度、接触感知和灵巧操作的复杂任务,例如掌内操作。现有方法在数据采集、多技能学习和多模态融合方面存在瓶颈,限制了其在类人灵巧操作中的应用。
核心思路:论文的核心思路是利用强化学习辅助遥操作,降低数据采集难度,并设计一种能够有效融合异构传感器数据的VLA架构。通过强化学习训练原子操作技能,作为遥操作的辅助工具,同时作为VLA模型的低级执行原语。通过残差注入机制,将力/触觉信息融入预训练的VLA模型,实现接触感知细化,同时保留模型的预训练知识。
技术框架:整体框架包含两个主要模块:IMCopilot和MoDE-VLA。IMCopilot是一个基于强化学习训练的原子技能库,用于辅助遥操作数据采集和作为VLA的低级执行原语。MoDE-VLA是一个VLA架构,它将异构力/触觉模态无缝集成到预训练的VLA骨干中。数据采集阶段,人类操作员通过遥操作控制机械臂,IMCopilot提供辅助,降低操作难度。训练阶段,利用采集的数据训练MoDE-VLA模型。执行阶段,MoDE-VLA根据视觉和语言指令,调用IMCopilot中的原子技能,完成复杂操作任务。
关键创新:论文的关键创新点在于:1) 提出了IMCopilot,利用强化学习辅助遥操作,降低了数据采集的难度,并为VLA模型提供了可复用的低级执行原语。2) 提出了MoDE-VLA,通过残差注入机制,将异构力/触觉信息融入预训练的VLA模型,实现了接触感知细化,同时避免了灾难性遗忘。
关键设计:IMCopilot中的原子技能采用强化学习算法进行训练,具体算法细节未知。MoDE-VLA采用残差注入机制,将力/触觉信息作为残差添加到VLA模型的中间层,具体网络结构和损失函数细节未知。异构传感器数据的融合方式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在四个复杂度递增的灵巧操作任务中,MoDE-VLA的性能显著优于基线方法。特别是在接触丰富的任务中,MoDE-VLA的成功率比基线方法提高了两倍,验证了该方法在灵巧操作和接触感知方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要灵巧操作的机器人任务,例如:医疗手术机器人、精密装配机器人、家庭服务机器人等。通过提升机器人的操作能力和接触感知能力,可以使其更好地适应复杂环境,完成更加精细的任务,提高生产效率和服务质量。
📄 摘要(原文)
While Vision-Language-Action (VLA) models have demonstrated remarkable success in robotic manipulation, their application has largely been confined to low-degree-of-freedom end-effectors performing simple, vision-guided pick-and-place tasks. Extending these models to human-like, bimanual dexterous manipulation-specifically contact-rich in-hand operations-introduces critical challenges in high-fidelity data acquisition, multi-skill learning, and multimodal sensory fusion. In this paper, we propose an integrated framework to address these bottlenecks, built upon two components. First, we introduce IMCopilot (In-hand Manipulation Copilot), a suite of reinforcement learning-trained atomic skills that plays a dual role: it acts as a shared-autonomy assistant to simplify teleoperation data collection, and it serves as a callable low-level execution primitive for the VLA. Second, we present MoDE-VLA (Mixture-of-Dexterous-Experts VLA), an architecture that seamlessly integrates heterogeneous force and tactile modalities into a pretrained VLA backbone. By utilizing a residual injection mechanism, MoDE-VLA enables contact-aware refinement without degrading the model's pretrained knowledge. We validate our approach on four tasks of escalating complexity, demonstrating doubled success rate improvement over the baseline in dexterous contact-rich tasks.