Dual-Actor Fine-Tuning of VLA Models: A Talk-and-Tweak Human-in-the-Loop Approach

📄 arXiv: 2509.13774v1 📥 PDF

作者: Piaopiao Jin, Qi Wang, Guokang Sun, Ziwen Cai, Pinjia He, Yangwei You

分类: cs.RO

发布日期: 2025-09-17


💡 一句话要点

提出基于强化学习的人机协同双Actor微调框架,提升VLA模型在复杂机器人任务中的性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机协同 强化学习 视觉语言动作模型 机器人操作 双Actor 在线微调 对话式调整

📋 核心要点

  1. VLA模型在复杂任务中面临挑战,现有监督微调受数据质量限制,强化学习方法有潜力但需要有效的人机交互。
  2. 提出双Actor微调框架,主Actor保证多任务性能,细化Actor进行潜在空间适应,并引入对话式调整方案。
  3. 实验表明,该方法在真实世界多任务中表现出色,在线微调时间短,长时程任务成功率高,并可扩展到多机器人。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在机器人操作中表现出强大的泛化能力,但在复杂的现实任务中面临挑战。有监督微调受限于数据质量,而强化学习(RL)提供了一种有前景的替代方案。我们提出了一种基于RL的人机协同双Actor微调框架。该框架集成了用于鲁棒多任务性能的主Actor和用于潜在空间适应的细化Actor。除了标准的物理干预,我们引入了一种轻量级的对话式调整方案,将人类的修正转化为语义相关的语言命令,从而生成用于策略学习的新数据集。在真实世界的多任务实验中,我们的方法在101分钟的在线微调中实现了三个任务100%的成功率。对于长时程任务,它在12个连续操作中保持了50%的成功率。此外,该框架可有效扩展到多机器人训练,在使用双机器人时效率提高高达2倍。实验视频可在https://sites.google.com/view/hil-daft/ 找到。

🔬 方法详解

问题定义:VLA模型在复杂、真实的机器人操作任务中泛化能力不足,现有基于演示的监督微调方法受限于演示数据的质量,难以覆盖所有可能的状态和动作空间。强化学习虽然有潜力,但需要有效的人机交互方式来引导策略学习,如何设计有效的人机协同框架是关键问题。

核心思路:论文的核心思路是利用人机协同的强化学习方法,通过引入一个主Actor和一个细化Actor,并结合对话式调整方案,来实现VLA模型在复杂任务中的快速微调。主Actor负责提供鲁棒的多任务性能,细化Actor负责在潜在空间中进行适应性调整,对话式调整则将人类的反馈转化为语义相关的语言命令,从而生成高质量的训练数据。

技术框架:该框架包含以下几个主要模块:1) 主Actor:负责执行基本的机器人操作任务,提供初始的策略。2) 细化Actor:在主Actor的基础上,通过强化学习进行微调,以适应特定任务的需求。3) 人机交互模块:允许人类通过物理干预或对话式命令来纠正机器人的行为。4) 数据生成模块:将人类的反馈转化为训练数据,用于更新Actor的策略。整个流程是一个迭代的过程,通过不断的人机交互和策略更新,最终实现VLA模型在复杂任务中的高性能。

关键创新:该论文的关键创新在于:1) 提出了双Actor的架构,将策略学习分解为鲁棒性和适应性两个方面。2) 引入了对话式调整方案,将人类的反馈转化为语义相关的语言命令,从而生成高质量的训练数据。3) 将人机交互与强化学习相结合,实现VLA模型在复杂任务中的快速微调。

关键设计:论文中,主Actor和细化Actor的网络结构可能基于Transformer或其他常用的VLA模型架构。强化学习算法可能采用PPO或SAC等。对话式调整方案的关键在于如何将人类的语言命令转化为有效的奖励信号或状态转移。损失函数的设计需要考虑主Actor和细化Actor之间的平衡,以及人类反馈的影响。具体的参数设置和网络结构细节需要在实验中进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在真实世界的多任务实验中取得了显著的成果。在101分钟的在线微调中,实现了三个任务100%的成功率。对于长时程任务,在12个连续操作中保持了50%的成功率。此外,该框架可有效扩展到多机器人训练,在使用双机器人时效率提高高达2倍。这些结果表明,该方法具有很强的实用性和可扩展性。

🎯 应用场景

该研究成果可应用于各种需要人机协同的机器人操作任务,例如智能制造、医疗康复、家庭服务等。通过人机协同的方式,可以快速地训练机器人完成复杂的任务,提高生产效率和服务质量。未来,该技术有望应用于更广泛的领域,例如自动驾驶、智能家居等。

📄 摘要(原文)

Vision-language-action (VLA) models demonstrate strong generalization in robotic manipulation but face challenges in complex, real-world tasks. While supervised fine-tuning with demonstrations is constrained by data quality, reinforcement learning (RL) offers a promising alternative. We propose a human-in-the-loop dual-actor fine-tuning framework grounded in RL. The framework integrates a primary actor for robust multi-task performance with a refinement actor for latent-space adaptation. Beyond standard physical interventions, we introduce a lightweight talk-and-tweak scheme that converts human corrections into semantically grounded language commands, thereby generating a new dataset for policy learning. In real-world multi-task experiments, our approach achieves 100% success across three tasks within 101 minutes of online fine-tuning. For long-horizon tasks, it sustains a 50% success rate over 12 consecutive operations. Furthermore, the framework scales effectively to multi-robot training, achieving up to a 2 times improvement in efficiency when using dual robots. The experiment videos are available at https://sites.google.com/view/hil-daft/.