Robotic Assistant: Completing Collaborative Tasks with Dexterous Vision-Language-Action Models

作者: Boshi An, Chenyu Yang, Robert Katzschmann

分类: cs.RO

发布日期: 2025-10-29

💡 一句话要点

提出基于视觉-语言-动作模型的机器人助手，用于灵巧的人机协作任务

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机协作 视觉-语言-动作模型 灵巧操作 机器人助手 意图预测 动作空间后处理 PCA降维

📋 核心要点

现有机器人协作方法在灵巧性和泛化性方面存在不足，难以适应复杂的人机交互场景。
利用预训练的视觉-语言-动作模型，通过少量提示和针对性优化，实现更自然、高效的人机协作。
实验表明，该方法在灵巧操作任务中表现出色，并能组合成复杂的长时程行为，但存在训练数据依赖问题。

📝 摘要（中文）

本文针对灵巧的人机协作，对预训练的视觉-语言-动作(VLA)模型(Open-VLA)进行适配，仅需少量语言提示。该方法添加了：(i)用于任务感知视觉主干网络的FiLM条件调节；(ii)预测协作人员手部姿势和目标线索的辅助意图头；(iii)动作空间后处理，预测紧凑的增量(位置/旋转)和PCA降维的手指关节，然后映射到完整指令。使用多视角、遥操作的Franka和Mimic手数据集，并用MediaPipe手部姿势进行增强，证明了增量动作表现良好，并且四个主成分解释了约96%的手部关节方差。消融实验表明，动作后处理是主要的性能驱动因素；辅助意图有帮助，FiLM效果不一，定向运动损失有害。一个实时堆栈(在RTX 4090上延迟约为0.3秒)将“拾取”和“传递”组合成长时程行为。研究发现，关键限制是“训练器过度拟合”到特定的演示者。

🔬 方法详解

问题定义：现有机器人协作系统在灵巧操作方面存在局限性，难以准确理解人类意图并执行复杂任务。此外，现有方法通常需要大量的训练数据和复杂的控制策略，泛化能力较弱。本文旨在解决如何在少量语言提示下，使机器人能够灵巧地与人类协作完成任务的问题。

核心思路：本文的核心思路是利用预训练的视觉-语言-动作模型(Open-VLA)，并对其进行针对性的优化，使其能够更好地理解人类的意图，并生成精确的动作指令。通过引入辅助意图头和动作空间后处理，提高模型的感知能力和动作控制精度。

技术框架：整体框架包括以下几个主要模块：1) 视觉主干网络：使用预训练的视觉模型提取图像特征，并通过FiLM条件调节实现任务感知。2) 语言模型：处理人类的语言指令，提取语义信息。3) 辅助意图头：预测协作人员的手部姿势和目标线索，帮助机器人理解人类的意图。4) 动作生成模块：根据视觉和语言信息，生成机器人的动作指令，包括位置、旋转和手指关节角度。5) 动作空间后处理：对生成的动作指令进行优化，生成紧凑的增量动作，并使用PCA降维减少手指关节的维度。

关键创新：本文的关键创新在于：1) 将预训练的VLA模型应用于灵巧的人机协作任务。2) 引入辅助意图头，提高机器人对人类意图的理解能力。3) 提出动作空间后处理方法，生成紧凑的增量动作，提高动作控制精度。4) 使用PCA降维减少手指关节的维度，降低计算复杂度。

关键设计：1) FiLM条件调节：使用FiLM层将任务相关的视觉特征融入到视觉主干网络中。2) 辅助意图头：使用多层感知机预测协作人员的手部姿势和目标线索。3) 动作空间后处理：使用增量动作表示，并使用PCA降维减少手指关节的维度。4) 损失函数：包括动作损失、意图损失和方向运动损失。其中，方向运动损失在实验中被证明是有害的。

📊 实验亮点

实验结果表明，动作空间后处理是主要的性能驱动因素，辅助意图头也有助于提高性能。在多视角、遥操作的Franka和Mimic手数据集上，四个主成分解释了约96%的手部关节方差。该系统能够在RTX 4090上实现约0.3秒的实时延迟，并能将“拾取”和“传递”组合成长时程行为。

🎯 应用场景

该研究成果可应用于各种人机协作场景，例如：智能制造、医疗康复、家庭服务等。通过该技术，机器人可以更好地理解人类的意图，并执行复杂的任务，从而提高生产效率和服务质量。未来，该技术有望实现更自然、高效的人机交互，促进人机协作的广泛应用。

📄 摘要（原文）

We adapt a pre-trained Vision-Language-Action (VLA) model (Open-VLA) for dexterous human-robot collaboration with minimal language prompting. Our approach adds (i) FiLM conditioning to visual backbones for task-aware perception, (ii) an auxiliary intent head that predicts collaborator hand pose and target cues, and (iii) action-space post-processing that predicts compact deltas (position/rotation) and PCA-reduced finger joints before mapping to full commands. Using a multi-view, teleoperated Franka and Mimic-hand dataset augmented with MediaPipe hand poses, we demonstrate that delta actions are well-behaved and that four principal components explain ~96% of hand-joint variance. Ablations identify action post-processing as the primary performance driver; auxiliary intent helps, FiLM is mixed, and a directional motion loss is detrimental. A real-time stack (~0.3 s latency on one RTX 4090) composes "pick-up" and "pass" into a long-horizon behavior. We surface "trainer overfitting" to specific demonstrators as the key limitation.

Robotic Assistant: Completing Collaborative Tasks with Dexterous Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册