ReFineVLA: Reasoning-Aware Teacher-Guided Transfer Fine-Tuning

📄 arXiv: 2505.19080v1 📥 PDF

作者: Tuan Van Vo, Tan Quang Nguyen, Khang Minh Nguyen, Duy Ho Minh Nguyen, Minh Nhat Vu

分类: cs.RO

发布日期: 2025-05-25

备注: 10 pages


💡 一句话要点

提出ReFineVLA,通过推理引导微调提升VLA模型在机器人操作任务中的性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 推理感知 教师引导 微调 多模态学习 注意力机制

📋 核心要点

  1. 现有VLA模型缺乏显式推理能力,限制了其在复杂操作任务中的泛化性和可解释性。
  2. ReFineVLA通过引入教师模型生成的推理链,引导VLA模型学习推理其动作,增强其推理能力。
  3. 实验表明,ReFineVLA在多个机器人操作任务中显著提升了性能,并改善了模型对相关对象的注意力。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在将多模态观察与语言指令转化为机器人动作方面备受关注。然而,VLA模型常常忽略显式推理,仅学习功能性的输入-动作映射,从而忽略了解释性和复杂、长时程操作任务泛化所需的关键逻辑步骤。本文提出了ReFineVLA,一个多模态推理感知框架,通过教师引导的理由来微调VLA模型。首先,我们使用专家教师模型生成的推理原理来扩充机器人数据集,引导VLA模型学习推理其动作。然后,我们使用ReFineVLA利用推理增强的数据集微调预训练的VLA模型,同时保持其固有的泛化能力并提高推理能力。此外,我们进行了注意力图可视化,以分析ReFineVLA的视觉注意力、语言提示和待执行动作之间的一致性,展示了其专注于相关任务和动作的能力。通过后一步骤,我们发现ReFineVLA训练的模型表现出对相关对象的有意义的注意力转移,突出了增强的多模态理解和改进的泛化。在操作任务上的评估表明,ReFineVLA优于最先进的基线。具体而言,它在SimplerEnv WidowX机器人任务上的成功率平均提高了5.0%,在变体聚合设置中平均提高了8.6%,在SimplerEnv Google机器人任务的视觉匹配设置中平均提高了1.7%。源代码将公开提供。

🔬 方法详解

问题定义:现有VLA模型在机器人操作任务中,通常只学习输入到动作的直接映射,缺乏对动作背后逻辑的推理能力。这导致模型在面对复杂或长时程任务时,泛化能力不足,且缺乏可解释性。因此,需要一种方法来增强VLA模型的推理能力,使其能够更好地理解和执行操作任务。

核心思路:ReFineVLA的核心思路是利用教师模型生成的操作理由(reasoning rationales)来指导VLA模型的训练。通过让VLA模型学习这些理由,可以显式地学习动作背后的逻辑,从而增强其推理能力和泛化能力。这种方法类似于知识蒸馏,但更侧重于推理过程的迁移。

技术框架:ReFineVLA框架主要包含以下几个步骤:1) 使用专家教师模型(例如,一个预训练的大型语言模型)为机器人数据集生成推理原理,这些原理描述了执行特定动作的原因和步骤。2) 使用包含推理原理的数据集来微调预训练的VLA模型。3) 通过注意力图可视化分析,验证模型是否关注了与推理相关的对象和步骤。

关键创新:ReFineVLA的关键创新在于引入了推理感知的微调方法,通过教师模型生成的推理原理来显式地增强VLA模型的推理能力。与传统的微调方法相比,ReFineVLA不仅关注输入-动作的映射,还关注动作背后的逻辑,从而提高了模型的泛化能力和可解释性。

关键设计:ReFineVLA的关键设计包括:1) 如何选择或设计合适的教师模型来生成高质量的推理原理。2) 如何将推理原理有效地融入到VLA模型的训练过程中,例如,可以通过修改损失函数或网络结构来实现。3) 如何评估模型的推理能力,例如,可以通过分析注意力图或设计专门的推理测试来评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReFineVLA在SimplerEnv WidowX机器人任务上的成功率平均提高了5.0%,在变体聚合设置中平均提高了8.6%,在SimplerEnv Google机器人任务的视觉匹配设置中平均提高了1.7%。注意力图可视化显示,ReFineVLA训练的模型能够更有效地关注与任务相关的对象,表明其多模态理解能力得到了提升。

🎯 应用场景

ReFineVLA可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化机器人等。通过提升机器人的推理能力,可以使其更好地理解人类指令,执行更复杂的任务,并提高其在不同环境下的适应性。该研究还有助于提高机器人操作任务的可解释性,增强人机协作的信任度。

📄 摘要(原文)

Vision-Language-Action (VLA) models have gained much attention from the research community thanks to their strength in translating multimodal observations with linguistic instructions into robotic actions. Despite their recent advancements, VLAs often overlook the explicit reasoning and only learn the functional input-action mappings, omitting these crucial logical steps for interpretability and generalization for complex, long-horizon manipulation tasks. In this work, we propose \textit{ReFineVLA}, a multimodal reasoning-aware framework that fine-tunes VLAs with teacher-guided reasons. We first augment robotic datasets with reasoning rationales generated by an expert teacher model, guiding VLA models to learn to reason about their actions. Then, we use \textit{ReFineVLA} to fine-tune pre-trained VLAs with the reasoning-enriched datasets, while maintaining their inherent generalization abilities and boosting reasoning capabilities. In addition, we conduct an attention map visualization to analyze the alignment among visual attention, linguistic prompts, and to-be-executed actions of \textit{ReFineVLA}, showcasing its ability to focus on relevant tasks and actions. Through the latter step, we explore that \textit{ReFineVLA}-trained models exhibit a meaningful attention shift towards relevant objects, highlighting the enhanced multimodal understanding and improved generalization. Evaluated across manipulation tasks, \textit{ReFineVLA} outperforms the state-of-the-art baselines. Specifically, it achieves an average increase of $5.0\%$ success rate on SimplerEnv WidowX Robot tasks, improves by an average of $8.6\%$ in variant aggregation settings, and by $1.7\%$ in visual matching settings for SimplerEnv Google Robot tasks. The source code will be publicly available.