FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

📄 arXiv: 2509.04996v1 📥 PDF

作者: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov

分类: cs.RO

发布日期: 2025-09-05

备注: Published at CoRL 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

FLOWER:通过高效的视觉-语言-动作流策略实现通用机器人策略的大众化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人策略 视觉-语言-动作 扩散模型 模型压缩 参数高效 机器人学习 通用机器人

📋 核心要点

  1. 现有VLA策略计算成本高昂,需要庞大的模型和数据集,限制了其在机器人领域的实际应用。
  2. FLOWER通过中间模态融合和动作特定的Global-AdaLN条件化,显著降低了模型参数量和计算需求。
  3. FLOWER在多个机器人任务上表现出与更大模型相当甚至更优的性能,并在CALVIN ABC基准上取得了新的SoTA。

📝 摘要(中文)

开发高效的视觉-语言-动作(VLA)策略对于实际的机器人部署至关重要,但当前的方法面临着过高的计算成本和资源需求。现有的基于扩散的VLA策略需要数十亿参数的模型和海量数据集才能实现强大的性能。我们通过两项贡献来应对这一效率挑战:中间模态融合,通过修剪高达50%的LLM层来将容量重新分配给扩散头;以及特定于动作的Global-AdaLN条件化,通过模块化适配减少20%的参数。我们将这些进步整合到一个名为FLOWER的新型9.5亿参数VLA中。FLOWER仅用200个H100 GPU小时进行预训练,在跨越十个模拟和真实世界基准的190个任务中,提供了与更大的VLA具有竞争力的性能,并展示了跨不同机器人形态的鲁棒性。此外,FLOWER在CALVIN ABC基准上实现了4.53的新SoTA。演示、代码和预训练权重可在https://intuitive-robots.github.io/flower_vla/上找到。

🔬 方法详解

问题定义:论文旨在解决现有视觉-语言-动作(VLA)策略在机器人领域应用时面临的计算成本和资源需求过高的问题。现有的基于扩散模型的VLA策略通常需要数十亿参数的模型和海量的数据集进行训练,这使得它们难以在资源受限的环境中部署和应用。

核心思路:论文的核心思路是通过模型压缩和参数高效的条件化方法来降低VLA策略的计算复杂度,同时保持其性能。具体来说,论文提出了中间模态融合和动作特定的Global-AdaLN条件化两种方法,旨在减少模型参数量,提高训练效率。

技术框架:FLOWER的整体架构包含视觉编码器、语言模型(LLM)和扩散模型。视觉编码器将图像转换为视觉特征,LLM处理语言指令,然后通过中间模态融合将视觉和语言信息结合起来。融合后的信息被输入到扩散模型中,该模型生成机器人动作。动作特定的Global-AdaLN条件化模块用于根据不同的动作类型调整扩散模型的行为。

关键创新:论文的关键创新在于中间模态融合和动作特定的Global-AdaLN条件化。中间模态融合通过剪枝LLM层,将模型容量重新分配给扩散头,从而减少了LLM的参数量。动作特定的Global-AdaLN条件化通过模块化适配,根据不同的动作类型调整扩散模型的行为,进一步减少了参数量。

关键设计:中间模态融合的关键设计在于确定哪些LLM层可以被安全地剪枝,而不会显著降低模型性能。动作特定的Global-AdaLN条件化的关键设计在于如何有效地将动作信息融入到扩散模型中,以便模型能够生成与特定动作相关的动作序列。论文中使用了Global-AdaLN层来实现这一目标,该层根据动作类型调整扩散模型的激活函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FLOWER仅用9.5亿参数和200个H100 GPU小时进行预训练,在190个机器人任务上取得了与更大模型具有竞争力的性能。特别是在CALVIN ABC基准上,FLOWER实现了4.53的新SoTA,证明了其在复杂机器人任务上的强大能力。此外,FLOWER还展示了跨不同机器人形态的鲁棒性,表明其具有良好的泛化能力。

🎯 应用场景

FLOWER的潜在应用领域包括家庭服务机器人、工业自动化、医疗机器人等。通过降低VLA策略的计算成本和资源需求,FLOWER使得更广泛的机器人应用成为可能,例如在资源受限的环境中部署机器人,或者在低成本的机器人平台上运行复杂的任务。此外,FLOWER的模块化设计也使得它可以方便地集成到不同的机器人系统中。

📄 摘要(原文)

Developing efficient Vision-Language-Action (VLA) policies is crucial for practical robotics deployment, yet current approaches face prohibitive computational costs and resource requirements. Existing diffusion-based VLA policies require multi-billion-parameter models and massive datasets to achieve strong performance. We tackle this efficiency challenge with two contributions: intermediate-modality fusion, which reallocates capacity to the diffusion head by pruning up to $50\%$ of LLM layers, and action-specific Global-AdaLN conditioning, which cuts parameters by $20\%$ through modular adaptation. We integrate these advances into a novel 950 M-parameter VLA called FLOWER. Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance with bigger VLAs across $190$ tasks spanning ten simulation and real-world benchmarks and demonstrates robustness across diverse robotic embodiments. In addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark. Demos, code and pretrained weights are available at https://intuitive-robots.github.io/flower_vla/.