FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

作者: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov

分类: cs.RO

发布日期: 2025-09-05

备注: Published at CoRL 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

FLOWER：通过高效的视觉-语言-动作流策略实现通用机器人策略的大众化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人策略 视觉-语言-动作 扩散模型 模型压缩 参数高效 机器人学习 通用机器人

📋 核心要点

现有VLA策略计算成本高昂，需要庞大的模型和数据集，限制了其在机器人领域的实际应用。
FLOWER通过中间模态融合和动作特定的Global-AdaLN条件化，显著降低了模型参数量和计算需求。
FLOWER在多个机器人任务上表现出与更大模型相当甚至更优的性能，并在CALVIN ABC基准上取得了新的SoTA。

📝 摘要（中文）

开发高效的视觉-语言-动作(VLA)策略对于实际的机器人部署至关重要，但当前的方法面临着过高的计算成本和资源需求。现有的基于扩散的VLA策略需要数十亿参数的模型和海量数据集才能实现强大的性能。我们通过两项贡献来应对这一效率挑战：中间模态融合，通过修剪高达50%的LLM层来将容量重新分配给扩散头；以及特定于动作的Global-AdaLN条件化，通过模块化适配减少20%的参数。我们将这些进步整合到一个名为FLOWER的新型9.5亿参数VLA中。FLOWER仅用200个H100 GPU小时进行预训练，在跨越十个模拟和真实世界基准的190个任务中，提供了与更大的VLA具有竞争力的性能，并展示了跨不同机器人形态的鲁棒性。此外，FLOWER在CALVIN ABC基准上实现了4.53的新SoTA。演示、代码和预训练权重可在https://intuitive-robots.github.io/flower_vla/上找到。

🔬 方法详解

问题定义：论文旨在解决现有视觉-语言-动作（VLA）策略在机器人领域应用时面临的计算成本和资源需求过高的问题。现有的基于扩散模型的VLA策略通常需要数十亿参数的模型和海量的数据集进行训练，这使得它们难以在资源受限的环境中部署和应用。

核心思路：论文的核心思路是通过模型压缩和参数高效的条件化方法来降低VLA策略的计算复杂度，同时保持其性能。具体来说，论文提出了中间模态融合和动作特定的Global-AdaLN条件化两种方法，旨在减少模型参数量，提高训练效率。

技术框架：FLOWER的整体架构包含视觉编码器、语言模型（LLM）和扩散模型。视觉编码器将图像转换为视觉特征，LLM处理语言指令，然后通过中间模态融合将视觉和语言信息结合起来。融合后的信息被输入到扩散模型中，该模型生成机器人动作。动作特定的Global-AdaLN条件化模块用于根据不同的动作类型调整扩散模型的行为。

关键创新：论文的关键创新在于中间模态融合和动作特定的Global-AdaLN条件化。中间模态融合通过剪枝LLM层，将模型容量重新分配给扩散头，从而减少了LLM的参数量。动作特定的Global-AdaLN条件化通过模块化适配，根据不同的动作类型调整扩散模型的行为，进一步减少了参数量。

关键设计：中间模态融合的关键设计在于确定哪些LLM层可以被安全地剪枝，而不会显著降低模型性能。动作特定的Global-AdaLN条件化的关键设计在于如何有效地将动作信息融入到扩散模型中，以便模型能够生成与特定动作相关的动作序列。论文中使用了Global-AdaLN层来实现这一目标，该层根据动作类型调整扩散模型的激活函数。

🖼️ 关键图片

📊 实验亮点

FLOWER仅用9.5亿参数和200个H100 GPU小时进行预训练，在190个机器人任务上取得了与更大模型具有竞争力的性能。特别是在CALVIN ABC基准上，FLOWER实现了4.53的新SoTA，证明了其在复杂机器人任务上的强大能力。此外，FLOWER还展示了跨不同机器人形态的鲁棒性，表明其具有良好的泛化能力。

🎯 应用场景

FLOWER的潜在应用领域包括家庭服务机器人、工业自动化、医疗机器人等。通过降低VLA策略的计算成本和资源需求，FLOWER使得更广泛的机器人应用成为可能，例如在资源受限的环境中部署机器人，或者在低成本的机器人平台上运行复杂的任务。此外，FLOWER的模块化设计也使得它可以方便地集成到不同的机器人系统中。

📄 摘要（原文）

Developing efficient Vision-Language-Action (VLA) policies is crucial for practical robotics deployment, yet current approaches face prohibitive computational costs and resource requirements. Existing diffusion-based VLA policies require multi-billion-parameter models and massive datasets to achieve strong performance. We tackle this efficiency challenge with two contributions: intermediate-modality fusion, which reallocates capacity to the diffusion head by pruning up to $50\%$ of LLM layers, and action-specific Global-AdaLN conditioning, which cuts parameters by $20\%$ through modular adaptation. We integrate these advances into a novel 950 M-parameter VLA called FLOWER. Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance with bigger VLAs across $190$ tasks spanning ten simulation and real-world benchmarks and demonstrates robustness across diverse robotic embodiments. In addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark. Demos, code and pretrained weights are available at https://intuitive-robots.github.io/flower_vla/.

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理