$π$, But Make It Fly: Physics-Guided Transfer of VLA Models to Aerial Manipulation

📄 arXiv: 2603.25038v1 📥 PDF

作者: Johnathan Tucker, Denis Liu, Aiden Swann, Allen Ren, Javier Yu, Jiankai Sun, Brandon Kim, Lachlain McGranahan, Quan Vuong, Mac Schwager

分类: cs.RO

发布日期: 2026-03-26


💡 一句话要点

AirVLA:通过物理引导迁移VLA模型至空中机器人操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空中机器人 视觉语言动作模型 迁移学习 物理引导 高斯溅射 有效载荷感知 机器人操作

📋 核心要点

  1. 现有VLA模型在固定基座机械臂上表现出色,但由于动力学差异,难以直接应用于空中机器人。
  2. AirVLA通过有效载荷感知引导机制,在不重新训练VLA模型的前提下,注入物理约束以适应飞行控制。
  3. 利用高斯溅射合成导航数据,显著提升了导航和抓取放置任务的成功率,并在真实世界实验中验证了有效性。

📝 摘要(中文)

本文提出了AirVLA系统,旨在研究视觉-语言-动作(VLA)模型(如$π_0$)在空中抓取放置任务中的可迁移性。研究发现,视觉表征能够有效迁移,但飞行所需的特定控制动力学无法迁移。为了弥合这种“动力学差距”,且不重新训练基础模型,引入了一种有效载荷感知引导机制,将有效载荷约束直接注入到策略的流匹配采样过程中。为了克服数据稀缺问题,进一步利用高斯溅射管线合成导航训练数据。通过累计460次真实世界实验评估了该方法,结果表明合成数据是性能的关键推动因素,在导航任务中实现了100%的成功率,而仅在遥操作数据上进行微调的成功率为81%。有效载荷感知引导在推理时干预,将真实世界抓取放置任务的成功率从23%提高到50%。最后,在长时程组合任务中评估了该模型,实现了62%的总体成功率。这些结果表明,经过适当的数据增强和物理信息引导的预训练操作VLA可以迁移到空中操作和导航,以及这些任务的组合。

🔬 方法详解

问题定义:论文旨在解决如何将已在固定基座机械臂上预训练的视觉-语言-动作(VLA)模型迁移到空中机器人平台的问题。现有方法直接迁移效果不佳,主要痛点在于固定基座机械臂的准静态动力学与空中机器人的欠驱动、高动态特性之间存在根本性差异,导致控制策略无法直接复用。

核心思路:论文的核心思路是在不重新训练VLA基础模型的前提下,通过引入物理信息引导来弥合固定基座和空中机器人之间的“动力学差距”。具体而言,通过有效载荷感知引导机制,将有效载荷约束直接注入到策略的流匹配采样过程中,从而使策略能够感知并适应空中机器人的动力学特性。

技术框架:AirVLA系统的整体框架包含以下几个主要模块:1) 预训练的VLA模型(如$π_0$),作为视觉和语言理解的基础;2) 高斯溅射管线,用于合成导航训练数据,解决数据稀缺问题;3) 有效载荷感知引导机制,在推理时干预VLA模型的输出,注入有效载荷约束;4) 真实世界实验平台,用于评估AirVLA系统的性能。

关键创新:论文最重要的技术创新点在于有效载荷感知引导机制。该机制通过在推理时干预VLA模型的输出,将有效载荷约束直接融入控制策略中,从而使策略能够适应空中机器人的动力学特性。与直接微调VLA模型相比,该方法避免了重新训练的开销,并且能够更好地利用预训练模型的知识。

关键设计:有效载荷感知引导机制的关键设计在于如何将有效载荷约束有效地融入流匹配采样过程。具体而言,论文可能使用了某种形式的约束优化或投影方法,将VLA模型的输出投影到满足有效载荷约束的子空间中。此外,高斯溅射管线的设计也至关重要,需要生成足够逼真且多样化的合成数据,以提高导航策略的泛化能力。具体的参数设置、损失函数和网络结构等细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AirVLA系统在真实世界实验中取得了显著成果。通过合成数据增强,导航任务的成功率从81%提升到100%。有效载荷感知引导机制将真实世界抓取放置任务的成功率从23%提高到50%。在长时程组合任务中,AirVLA系统也实现了62%的总体成功率。这些数据表明,AirVLA系统能够有效地将预训练的VLA模型迁移到空中机器人平台,并显著提升其性能。

🎯 应用场景

该研究成果可应用于物流配送、灾害救援、农业植保等领域,使空中机器人能够更智能、更自主地完成复杂的抓取放置任务。通过迁移学习,可以降低空中机器人应用开发的成本和时间,加速空中机器人技术的普及和应用。未来,该方法有望扩展到其他类型的机器人平台,实现更广泛的机器人智能化。

📄 摘要(原文)

Vision-Language-Action (VLA) models such as $π_0$ have demonstrated remarkable generalization across diverse fixed-base manipulators. However, transferring these foundation models to aerial platforms remains an open challenge due to the fundamental mismatch between the quasi-static dynamics of fixed-base arms and the underactuated, highly dynamic nature of flight. In this work, we introduce AirVLA, a system that investigates the transferability of manipulation-pretrained VLAs to aerial pick-and-place tasks. We find that while visual representations transfer effectively, the specific control dynamics required for flight do not. To bridge this "dynamics gap" without retraining the foundation model, we introduce a Payload-Aware Guidance mechanism that injects payload constraints directly into the policy's flow-matching sampling process. To overcome data scarcity, we further utilize a Gaussian Splatting pipeline to synthesize navigation training data. We evaluate our method through a cumulative 460 real-world experiments which demonstrate that this synthetic data is a key enabler of performance, unlocking 100% success in navigation tasks where directly fine-tuning on teleoperation data alone attains 81% success. Our inference-time intervention, Payload-Aware Guidance, increases real-world pick-and-place task success from 23% to 50%. Finally, we evaluate the model on a long-horizon compositional task, achieving a 62% overall success rate. These results suggest that pre-trained manipulation VLAs, with appropriate data augmentation and physics-informed guidance, can transfer to aerial manipulation and navigation, as well as the composition of these tasks.