FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies
作者: Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang, Mingsheng Li, Sicheng Xie, Yitao Liu, Junhao Chen, Yixuan Chen, Yingming Zheng, Shuai Bai, Tao Yu
分类: cs.RO, cs.AI
发布日期: 2026-05-26
备注: 26 pages, 7 figures, 25 tables
💡 一句话要点
FineVLA:用于可控视觉-语言-动作策略的细粒度指令对齐框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 机器人控制 细粒度标注 指令对齐 可控策略
📋 核心要点
- 现有机器人数据集缺乏细粒度的动作指令,限制了VLA模型学习可控的机器人策略。
- FineVLA框架通过构建细粒度标注数据集,并设计机器人专用VLM标注器,实现了可扩展的细粒度VLA监督。
- 实验表明,细粒度指令与粗粒度指令互补,显著提升了机器人任务的成功率和可控性,尤其是在姿势、颜色和接近方向等细粒度控制方面。
📝 摘要(中文)
视觉-语言-动作(VLA)模型越来越被期望不仅能完成机器人任务,还能遵循人类关于如何执行这些任务的指令。然而,现有的机器人数据集通常将轨迹与粗略的目标级语言配对,而忽略了执行关键的细节,如活动臂、接近方向和接触区域。这限制了可控策略学习和机器人视频理解。我们引入了FineVLA,一个用于动作对齐的细粒度VLA监督的开放框架。该框架包括:(1)一个数据构建工具,统一了来自10个开源机器人数据集的85K个任务中的972,247条轨迹,并构建了FineVLA-Data,一个经过人工验证的包含47,159条细粒度轨迹的数据集;(2)一个包含500个视频、10,816个原子事实和1,030个VQA问题的预留基准;(3)一个机器人专用VLM标注器,用于可扩展的细粒度标注;(4)一个使用细粒度和原始目标级指令的受控混合训练的可控VLA策略。我们的实验产生了三个发现。首先,细粒度监督不会牺牲目标级成功:仅FG设置在不同设置下比仅Raw设置提高了+1.4到+8.1个成功率点。其次,细粒度和原始指令是互补的,遵循一致的倒U型趋势,在FG:Raw = 1:2到1:1时达到峰值。最佳混合设置在RoboTwin模拟中达到86.8%/82.5%,在真实世界双臂操作中达到62.7/100(而仅Raw设置为49.9)。第三,细粒度监督提高了可控性:最大的真实世界收益出现在姿势(+23)、颜色(+18)和接近方向(+18)上——这些因素是目标级指令无法提供指导的。
🔬 方法详解
问题定义:现有VLA模型依赖于粗粒度的目标级指令,缺乏对机器人动作细节的精确控制,例如机械臂的选择、接近角度和接触区域等。这导致模型难以学习可控的机器人策略,并且限制了机器人视频理解能力。现有方法的痛点在于缺乏细粒度的动作标注数据,难以进行有效的监督学习。
核心思路:论文的核心思路是通过构建一个包含细粒度动作标注的大规模数据集,并利用该数据集训练VLA模型,从而提升模型对机器人动作细节的理解和控制能力。通过混合使用细粒度和粗粒度的指令,可以实现更好的性能和可控性。这种混合策略允许模型在学习目标的同时,也学习如何精确地执行动作。
技术框架:FineVLA框架包含四个主要组成部分:(1) 数据构建工具,用于统一来自多个开源机器人数据集的轨迹,并构建FineVLA-Data数据集。(2) 人工验证流程,确保数据集的质量和准确性。(3) 机器人专用VLM标注器,用于可扩展的细粒度标注。(4) 可控VLA策略训练流程,使用细粒度和原始目标级指令的受控混合进行训练。整体流程是从现有机器人数据集中提取轨迹,然后使用VLM标注器进行细粒度标注,最后使用标注后的数据训练VLA模型。
关键创新:该论文的关键创新在于提出了一个用于动作对齐的细粒度VLA监督的开放框架,包括数据构建工具、人工验证流程、机器人专用VLM标注器和可控VLA策略训练流程。与现有方法相比,FineVLA能够提供更精确的动作指导,从而提升VLA模型的可控性和性能。此外,机器人专用VLM标注器能够实现可扩展的细粒度标注,解决了数据标注的瓶颈问题。
关键设计:在数据构建方面,论文统一了来自10个开源机器人数据集的轨迹,并构建了包含47,159条细粒度轨迹的FineVLA-Data数据集。在VLA策略训练方面,论文使用了细粒度和原始目标级指令的受控混合,通过调整两种指令的比例,可以实现最佳的性能和可控性。论文还设计了一个预留基准,用于评估VLA模型在机器人视频理解方面的能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,细粒度监督不会牺牲目标级成功,甚至在不同设置下比仅Raw设置提高了+1.4到+8.1个成功率点。最佳混合设置在RoboTwin模拟中达到86.8%/82.5%,在真实世界双臂操作中达到62.7/100(而仅Raw设置为49.9)。在姿势、颜色和接近方向等细粒度控制方面,也取得了显著的提升,例如姿势控制提升了+23。
🎯 应用场景
FineVLA框架可应用于各种机器人任务,例如工业自动化、家庭服务机器人和医疗机器人等。通过提供细粒度的动作指导,可以提升机器人在复杂环境中的操作能力和安全性。该研究的成果有助于推动机器人技术的进步,并促进机器人更广泛的应用。
📄 摘要(原文)
Vision-Language-Action (VLA) models are increasingly expected to not only complete robot tasks, but also follow human instructions about how those tasks should be executed. However, existing robot datasets usually pair trajectories with coarse goal-level language, leaving execution-critical details such as active arm, approach direction, and contact region unspecified. This limits steerable policy learning and robotic video understanding. We introduce FineVLA, an open framework for action-aligned fine-grained VLA supervision. The framework includes: (1) a data construction tool that unifies 972,247 trajectories across 85K tasks from 10 open-source robot datasets and builds FineVLA-Data, a human-verified dataset of 47,159 fine-grained trajectories; (2) a held-out benchmark with 500 videos, 10,816 atomic facts, and 1,030 VQA questions; (3) a robotics-specialized VLM annotator for scalable fine-grained annotation; and (4) a steerable VLA policy trained with controlled mixtures of fine-grained and raw goal-level instructions. Our experiments yield three findings. First, fine-grained supervision does not sacrifice goal-level success: FG-only improves over Raw-only by +1.4 to +8.1 success-rate points across settings. Second, fine-grained and raw instructions are complementary, following a consistent inverted-U trend peaking at FG:Raw = 1:2 to 1:1. The best mixed setting reaches 86.8%/82.5% in RoboTwin simulation and 62.7/100 in real-world dual-arm manipulation (vs. 49.9 Raw-only). Third, fine-grained supervision improves steerable control: the largest real-world gains appear on pose (+23), color (+18), and approach direction (+18)--factors where goal-level instructions provide no guidance. Overall, fine-grained language should augment goal-level instructions: specifying how to execute alongside what to achieve. Project page: https://finevla.xlang.ai/