MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training

📄 arXiv: 2512.15411v2 📥 PDF

作者: Zhenhan Yin, Xuanhan Wang, Jiahao Jiang, Kaiyuan Deng, Pengqi Chen, Shuangle Li, Chong Liu, Xing Xu, Jingkuan Song, Lianli Gao, Heng Tao Shen

分类: cs.RO, cs.CV

发布日期: 2025-12-17 (更新: 2025-12-19)


💡 一句话要点

MiVLA:通过人-机互模仿预训练实现通用视觉-语言-动作模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 人机互模仿 预训练 机器人控制 泛化能力 行为模仿学习 机器人技能学习

📋 核心要点

  1. 现有VLA模型在泛化性方面存在不足,主要原因是真实世界数据稀缺以及人类与机器人之间存在视觉和形态差异。
  2. MiVLA的核心思想是利用人手和机械臂之间的行为相似性,通过互模仿学习,让人和机器人的行为知识相互迁移。
  3. 实验结果表明,MiVLA在模拟和真实机器人控制任务中,相比现有VLA模型,泛化能力分别提升了25%和14%。

📝 摘要(中文)

现有视觉-语言-动作模型(VLA)的泛化能力受限于相机视角、视觉外观和机器人形态的差异。为了克服这一限制,我们提出了MiVLA,一种通过人-机互模仿预训练增强的通用VLA。MiVLA利用人手和机械臂之间固有的行为相似性,为人类动作和机器人控制建立强大的行为先验基础。具体来说,我们的方法利用运动学规则和左右手坐标系,实现人与机器人动作空间之间的双向对齐。给定人类或模拟机器人演示,MiVLA被训练来预测一种形态的行为轨迹,并模仿另一种在演示中未见过的形态的行为。基于这种互模仿,它将真实世界人类数据的行为保真度与模拟机器人数据的操作多样性集成到一个统一的模型中,从而增强了下游任务的泛化能力。在三个机器人(ARX、PiPer和LocoMan)的模拟和真实世界平台上进行的大量实验表明,MiVLA实现了显著提高的泛化能力,在模拟中优于最先进的VLA(例如$oldsymbolπ_{0}$、$oldsymbolπ_{0.5}$和H-RDT)25%,在真实世界机器人控制任务中优于14%。

🔬 方法详解

问题定义:现有视觉-语言-动作模型(VLA)在真实机器人环境中的泛化能力不足。主要原因是真实世界机器人数据稀缺,且人类演示数据与机器人数据之间存在视角、外观和形态上的差异,导致模型难以有效利用人类数据进行学习。

核心思路:论文的核心思路是利用人类和机器人行为之间的相似性,通过互模仿学习,将人类的行为知识迁移到机器人上,反之亦然。通过这种方式,模型可以同时学习人类行为的保真度和机器人操作的多样性,从而提高泛化能力。

技术框架:MiVLA的整体框架包括以下几个主要模块:1) 人类和机器人动作空间对齐模块:利用运动学规则和左右手坐标系,将人类和机器人的动作空间进行对齐。2) 互模仿学习模块:给定人类或模拟机器人的演示,模型被训练来预测一种形态的行为轨迹,并模仿另一种形态的行为。3) 统一模型:将人类数据和机器人数据集成到一个统一的模型中,从而提高泛化能力。

关键创新:该论文的关键创新在于提出了一种人-机互模仿预训练方法,该方法能够有效地利用人类数据和机器人数据,从而提高VLA模型的泛化能力。与现有方法相比,MiVLA能够更好地处理人类和机器人之间的差异,并学习到更通用的行为表示。

关键设计:在动作空间对齐方面,论文使用了运动学规则和左右手坐标系,确保人类和机器人的动作能够进行有效的映射。在互模仿学习方面,论文使用了行为轨迹预测和行为模仿两种方式,从而使模型能够同时学习人类行为的保真度和机器人操作的多样性。损失函数的设计也至关重要,需要平衡轨迹预测和行为模仿之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MiVLA在模拟和真实机器人控制任务中都取得了显著的性能提升。在模拟环境中,MiVLA优于最先进的VLA模型(如$oldsymbolπ_{0}$、$oldsymbolπ_{0.5}$和H-RDT)25%。在真实世界机器人控制任务中,MiVLA的性能提升了14%。这些结果表明,MiVLA具有很强的泛化能力和实用价值。

🎯 应用场景

MiVLA具有广泛的应用前景,例如可以应用于家庭服务机器人、工业机器人等领域。通过学习人类的动作和行为习惯,机器人可以更好地理解人类的意图,并执行各种复杂的任务。此外,MiVLA还可以用于机器人技能学习,使机器人能够快速适应新的环境和任务。

📄 摘要(原文)

While leveraging abundant human videos and simulated robot data poses a scalable solution to the scarcity of real-world robot data, the generalization capability of existing vision-language-action models (VLAs) remains limited by mismatches in camera views, visual appearance, and embodiment morphologies. To overcome this limitation, we propose MiVLA, a generalizable VLA empowered by human-robot mutual imitation pre-training, which leverages inherent behavioral similarity between human hands and robotic arms to build a foundation of strong behavioral priors for both human actions and robotic control. Specifically, our method utilizes kinematic rules with left/right hand coordinate systems for bidirectional alignment between human and robot action spaces. Given human or simulated robot demonstrations, MiVLA is trained to forecast behavior trajectories for one embodiment, and imitate behaviors for another one unseen in the demonstration. Based on this mutual imitation, it integrates the behavioral fidelity of real-world human data with the manipulative diversity of simulated robot data into a unified model, thereby enhancing the generalization capability for downstream tasks. Extensive experiments conducted on both simulation and real-world platforms with three robots (ARX, PiPer and LocoMan), demonstrate that MiVLA achieves strong improved generalization capability, outperforming state-of-the-art VLAs (e.g., $\boldsymbolπ_{0}$, $\boldsymbolπ_{0.5}$ and H-RDT) by 25% in simulation, and 14% in real-world robot control tasks.