CLAW: A Vision-Language-Action Framework for Weight-Aware Robotic Grasping
作者: Zijian An, Ran Yang, Yiming Feng, Lifeng Zhou
分类: cs.RO
发布日期: 2025-09-17
备注: 8 pages, 5 figures, 1 table
💡 一句话要点
CLAW:一种用于重量感知机器人抓取的视觉-语言-动作框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人抓取 视觉语言动作 重量感知 CLIP模型 条件控制
📋 核心要点
- 现有VLA模型难以满足精确的任务约束,例如基于数值阈值停止,缺乏显式条件监控机制。
- CLAW框架将条件评估与动作生成解耦,利用CLIP模型生成提示,指导基于流的VLA策略生成动作。
- 实验表明,CLAW在单对象抓取和混合对象任务中,能可靠执行重量感知行为,优于基线模型。
📝 摘要(中文)
视觉-语言-动作(VLA)模型最近作为一种有前景的机器人控制范例出现,它能够实现将自然语言指令融入视觉运动动作的端到端策略。然而,当前的VLA模型通常难以满足精确的任务约束,例如基于数值阈值停止,因为它们的观察到动作的映射是由训练数据隐式塑造的,并且缺乏用于条件监控的显式机制。在这项工作中,我们提出了CLAW(用于重量的CLIP-语言-动作),一个将条件评估与动作生成解耦的框架。CLAW利用微调的CLIP模型作为轻量级提示生成器,它持续监控秤的数字读数,并基于特定于任务的重量阈值生成离散指令。这些提示随后被$π_0$(一个基于流的VLA策略)使用,该策略将提示与多视角相机观察结果集成,以产生连续的机器人动作。这种设计使CLAW能够将符号重量推理与高频视觉运动控制相结合。我们在三个实验设置上验证了CLAW:单对象抓取和需要双臂操作的混合对象任务。在所有条件下,CLAW都能可靠地执行重量感知行为,并且优于原始$π_0$和微调的$π_0$模型。我们已将视频作为补充材料上传。
🔬 方法详解
问题定义:论文旨在解决现有视觉-语言-动作(VLA)模型在机器人控制中难以满足精确任务约束的问题,尤其是在需要基于数值阈值(如重量)停止的任务中。现有VLA模型的观察到动作的映射是隐式学习的,缺乏显式的条件监控机制,导致无法精确控制。
核心思路:论文的核心思路是将条件评估(例如,判断重量是否达到阈值)与动作生成解耦。通过引入一个轻量级的提示生成器(基于CLIP模型),该生成器负责持续监控环境状态(例如,秤的读数)并生成离散的指令(提示)。这些提示随后被VLA策略用于生成连续的机器人动作。这种解耦使得系统能够结合符号推理(重量阈值判断)和高频视觉运动控制。
技术框架:CLAW框架包含以下几个主要模块: 1. CLIP Prompt Generator:一个微调的CLIP模型,用于监控数字秤的读数,并根据预定义的重量阈值生成离散的提示(例如,“增加重量”,“停止”)。 2. Flow-based VLA Policy ($π_0$):一个基于流的视觉-语言-动作策略,它接收来自CLIP Prompt Generator的提示以及多视角相机观察结果,并生成连续的机器人动作。 3. Robot Environment:包含机器人手臂、相机、秤以及待操作的对象。
关键创新:CLAW的关键创新在于将条件评估与动作生成解耦,并使用CLIP模型作为轻量级的提示生成器。这使得系统能够显式地监控环境状态,并根据预定义的规则生成指令,从而实现更精确的控制。与直接将视觉输入映射到动作的端到端VLA模型相比,CLAW引入了中间的符号推理步骤,提高了控制的可靠性和可解释性。
关键设计: 1. CLIP微调:使用特定于任务的数据集对CLIP模型进行微调,以提高其在重量感知任务中的性能。 2. 离散提示设计:设计了一组离散的提示,用于指导VLA策略的动作生成。这些提示基于预定义的重量阈值。 3. Flow-based VLA Policy:使用基于流的模型作为VLA策略,因为它能够学习复杂的动作分布,并生成平滑的连续动作。 4. 多视角相机:使用多视角相机来提高视觉感知的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CLAW框架在单对象抓取和混合对象任务中均优于基线模型(原始$π_0$和微调的$π_0$)。CLAW能够可靠地执行重量感知行为,例如,在达到预定的重量阈值时停止添加物体。具体性能数据在论文的实验部分有详细描述,但摘要中未提供具体的性能提升幅度。
🎯 应用场景
CLAW框架具有广泛的应用前景,例如在自动化装配、食品加工、医疗机器人等领域。它可以用于需要精确控制和条件判断的机器人任务,例如,根据零件的重量选择合适的装配方式,或者根据食物的重量控制烹饪时间。该研究有助于提高机器人的智能化水平和适应性,使其能够更好地完成复杂任务。
📄 摘要(原文)
Vision-language-action (VLA) models have recently emerged as a promising paradigm for robotic control, enabling end-to-end policies that ground natural language instructions into visuomotor actions. However, current VLAs often struggle to satisfy precise task constraints, such as stopping based on numeric thresholds, since their observation-to-action mappings are implicitly shaped by training data and lack explicit mechanisms for condition monitoring. In this work, we propose CLAW (CLIP-Language-Action for Weight), a framework that decouples condition evaluation from action generation. CLAW leverages a fine-tuned CLIP model as a lightweight prompt generator, which continuously monitors the digital readout of a scale and produces discrete directives based on task-specific weight thresholds. These prompts are then consumed by $π_0$, a flow-based VLA policy, which integrates the prompts with multi-view camera observations to produce continuous robot actions. This design enables CLAW to combine symbolic weight reasoning with high-frequency visuomotor control. We validate CLAW on three experimental setups: single-object grasping and mixed-object tasks requiring dual-arm manipulation. Across all conditions, CLAW reliably executes weight-aware behaviors and outperforms both raw-$π_0$ and fine-tuned $π_0$ models. We have uploaded the videos as supplementary materials.