CLAW: A Vision-Language-Action Framework for Weight-Aware Robotic Grasping
作者: Zijian An, Ran Yang, Yiming Feng, Lifeng Zhou
分类: cs.RO
发布日期: 2025-09-17
备注: 8 pages, 5 figures, 1 table
💡 一句话要点
CLAW:一种用于重量感知机器人抓取的视觉-语言-动作框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人抓取 视觉语言动作 重量感知 条件控制 CLIP模型
📋 核心要点
- 现有VLA模型难以满足精确的任务约束,例如基于数值阈值停止,因为缺乏显式条件监控机制。
- CLAW框架解耦了条件评估和动作生成,利用CLIP模型生成提示,指导基于流的VLA策略生成动作。
- 实验表明,CLAW在单对象抓取和混合对象任务中,能可靠执行重量感知行为,优于基线模型。
📝 摘要(中文)
视觉-语言-动作(VLA)模型最近作为一种有前景的机器人控制范例出现,它能够实现将自然语言指令融入视觉运动动作的端到端策略。然而,当前的VLA模型通常难以满足精确的任务约束,例如基于数值阈值停止,因为它们的观察到动作的映射是由训练数据隐式塑造的,并且缺乏用于条件监控的显式机制。在这项工作中,我们提出了CLAW(CLIP-Language-Action for Weight),一个将条件评估与动作生成解耦的框架。CLAW利用微调的CLIP模型作为轻量级的提示生成器,它持续监控秤的数字读数,并基于特定于任务的重量阈值生成离散指令。这些提示随后被$π_0$(一个基于流的VLA策略)使用,该策略将提示与多视角相机观察结果集成,以产生连续的机器人动作。这种设计使CLAW能够将符号重量推理与高频视觉运动控制相结合。我们在三个实验装置上验证了CLAW:单对象抓取和需要双臂操作的混合对象任务。在所有条件下,CLAW都能可靠地执行重量感知行为,并且优于原始$π_0$和微调的$π_0$模型。我们已将视频作为补充材料上传。
🔬 方法详解
问题定义:论文旨在解决现有视觉-语言-动作(VLA)模型在机器人控制中难以满足精确任务约束的问题,特别是当任务需要基于数值阈值(例如重量)进行停止时。现有VLA模型的观察到动作的映射是隐式的,缺乏显式的条件监控机制,导致无法准确执行此类任务。
核心思路:论文的核心思路是将条件评估与动作生成解耦。具体来说,使用一个轻量级的提示生成器(基于CLIP模型)来持续监控任务相关的条件(例如秤的读数),并生成离散的指令(提示)。然后,这些提示被集成到VLA策略中,以指导机器人动作的生成。这种解耦的设计允许系统分别处理符号推理(条件评估)和高频视觉运动控制。
技术框架:CLAW框架包含以下主要模块:1) 微调的CLIP模型:作为轻量级的提示生成器,根据数字秤的读数和预定义的重量阈值生成离散的指令。2) 基于流的VLA策略($π_0$):将CLIP模型生成的提示与多视角相机观察结果相结合,生成连续的机器人动作。整体流程是:相机捕捉图像 -> CLIP模型根据图像和重量阈值生成提示 -> VLA策略根据图像和提示生成机器人动作。
关键创新:最重要的技术创新点在于将条件评估与动作生成解耦。与传统的端到端VLA模型不同,CLAW使用一个独立的模块(CLIP模型)来处理条件评估,并将评估结果以提示的形式传递给VLA策略。这种设计使得系统能够更好地处理需要精确条件监控的任务,并且可以更容易地修改和调整条件评估的逻辑。
关键设计:CLIP模型通过微调来适应特定的任务和重量阈值。VLA策略($π_0$)采用基于流的模型,能够生成连续的机器人动作。提示的设计需要仔细考虑,以确保能够有效地指导VLA策略的动作生成。损失函数的设计需要平衡动作的准确性和平滑性。
📊 实验亮点
实验结果表明,CLAW在单对象抓取和混合对象任务中均表现出色,能够可靠地执行重量感知行为。CLAW显著优于原始的$π_0$模型和微调的$π_0$模型,证明了解耦条件评估和动作生成策略的有效性。具体性能数据在论文的实验部分有详细展示,包括成功率、精度等指标。
🎯 应用场景
CLAW框架具有广泛的应用前景,例如在自动化装配、物流分拣、医疗机器人等领域。它可以用于需要精确重量控制的任务,例如药品分装、食品配料、精密仪器组装等。通过结合视觉信息和语言指令,CLAW可以实现更加灵活和智能的机器人控制,提高生产效率和产品质量。未来,该框架可以扩展到其他类型的条件监控,例如温度、压力、位置等,从而实现更加通用的机器人控制系统。
📄 摘要(原文)
Vision-language-action (VLA) models have recently emerged as a promising paradigm for robotic control, enabling end-to-end policies that ground natural language instructions into visuomotor actions. However, current VLAs often struggle to satisfy precise task constraints, such as stopping based on numeric thresholds, since their observation-to-action mappings are implicitly shaped by training data and lack explicit mechanisms for condition monitoring. In this work, we propose CLAW (CLIP-Language-Action for Weight), a framework that decouples condition evaluation from action generation. CLAW leverages a fine-tuned CLIP model as a lightweight prompt generator, which continuously monitors the digital readout of a scale and produces discrete directives based on task-specific weight thresholds. These prompts are then consumed by $π_0$, a flow-based VLA policy, which integrates the prompts with multi-view camera observations to produce continuous robot actions. This design enables CLAW to combine symbolic weight reasoning with high-frequency visuomotor control. We validate CLAW on three experimental setups: single-object grasping and mixed-object tasks requiring dual-arm manipulation. Across all conditions, CLAW reliably executes weight-aware behaviors and outperforms both raw-$π_0$ and fine-tuned $π_0$ models. We have uploaded the videos as supplementary materials.