CLAW: A Vision-Language-Action Framework for Weight-Aware Robotic Grasping

作者: Zijian An, Ran Yang, Yiming Feng, Lifeng Zhou

分类: cs.RO

发布日期: 2025-09-17

备注: 8 pages, 5 figures, 1 table

💡 一句话要点

CLAW：一种用于重量感知机器人抓取的视觉-语言-动作框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人抓取 视觉语言动作 重量感知 条件控制 CLIP模型

📋 核心要点

现有VLA模型难以满足精确的任务约束，例如基于数值阈值停止，因为缺乏显式条件监控机制。
CLAW框架解耦了条件评估和动作生成，利用CLIP模型生成提示，指导基于流的VLA策略生成动作。
实验表明，CLAW在单对象抓取和混合对象任务中，能可靠执行重量感知行为，优于基线模型。

📝 摘要（中文）

视觉-语言-动作(VLA)模型最近作为一种有前景的机器人控制范例出现，它能够实现将自然语言指令融入视觉运动动作的端到端策略。然而，当前的VLA模型通常难以满足精确的任务约束，例如基于数值阈值停止，因为它们的观察到动作的映射是由训练数据隐式塑造的，并且缺乏用于条件监控的显式机制。在这项工作中，我们提出了CLAW（CLIP-Language-Action for Weight），一个将条件评估与动作生成解耦的框架。CLAW利用微调的CLIP模型作为轻量级的提示生成器，它持续监控秤的数字读数，并基于特定于任务的重量阈值生成离散指令。这些提示随后被$π_0$（一个基于流的VLA策略）使用，该策略将提示与多视角相机观察结果集成，以产生连续的机器人动作。这种设计使CLAW能够将符号重量推理与高频视觉运动控制相结合。我们在三个实验装置上验证了CLAW：单对象抓取和需要双臂操作的混合对象任务。在所有条件下，CLAW都能可靠地执行重量感知行为，并且优于原始$π_0$和微调的$π_0$模型。我们已将视频作为补充材料上传。

🔬 方法详解

问题定义：论文旨在解决现有视觉-语言-动作(VLA)模型在机器人控制中难以满足精确任务约束的问题，特别是当任务需要基于数值阈值（例如重量）进行停止时。现有VLA模型的观察到动作的映射是隐式的，缺乏显式的条件监控机制，导致无法准确执行此类任务。

核心思路：论文的核心思路是将条件评估与动作生成解耦。具体来说，使用一个轻量级的提示生成器（基于CLIP模型）来持续监控任务相关的条件（例如秤的读数），并生成离散的指令（提示）。然后，这些提示被集成到VLA策略中，以指导机器人动作的生成。这种解耦的设计允许系统分别处理符号推理（条件评估）和高频视觉运动控制。

技术框架：CLAW框架包含以下主要模块：1) 微调的CLIP模型：作为轻量级的提示生成器，根据数字秤的读数和预定义的重量阈值生成离散的指令。2) 基于流的VLA策略($π_0$)：将CLIP模型生成的提示与多视角相机观察结果相结合，生成连续的机器人动作。整体流程是：相机捕捉图像 -> CLIP模型根据图像和重量阈值生成提示 -> VLA策略根据图像和提示生成机器人动作。

关键创新：最重要的技术创新点在于将条件评估与动作生成解耦。与传统的端到端VLA模型不同，CLAW使用一个独立的模块（CLIP模型）来处理条件评估，并将评估结果以提示的形式传递给VLA策略。这种设计使得系统能够更好地处理需要精确条件监控的任务，并且可以更容易地修改和调整条件评估的逻辑。

关键设计：CLIP模型通过微调来适应特定的任务和重量阈值。VLA策略($π_0$)采用基于流的模型，能够生成连续的机器人动作。提示的设计需要仔细考虑，以确保能够有效地指导VLA策略的动作生成。损失函数的设计需要平衡动作的准确性和平滑性。

📊 实验亮点

实验结果表明，CLAW在单对象抓取和混合对象任务中均表现出色，能够可靠地执行重量感知行为。CLAW显著优于原始的$π_0$模型和微调的$π_0$模型，证明了解耦条件评估和动作生成策略的有效性。具体性能数据在论文的实验部分有详细展示，包括成功率、精度等指标。

🎯 应用场景

CLAW框架具有广泛的应用前景，例如在自动化装配、物流分拣、医疗机器人等领域。它可以用于需要精确重量控制的任务，例如药品分装、食品配料、精密仪器组装等。通过结合视觉信息和语言指令，CLAW可以实现更加灵活和智能的机器人控制，提高生产效率和产品质量。未来，该框架可以扩展到其他类型的条件监控，例如温度、压力、位置等，从而实现更加通用的机器人控制系统。

📄 摘要（原文）

Vision-language-action (VLA) models have recently emerged as a promising paradigm for robotic control, enabling end-to-end policies that ground natural language instructions into visuomotor actions. However, current VLAs often struggle to satisfy precise task constraints, such as stopping based on numeric thresholds, since their observation-to-action mappings are implicitly shaped by training data and lack explicit mechanisms for condition monitoring. In this work, we propose CLAW (CLIP-Language-Action for Weight), a framework that decouples condition evaluation from action generation. CLAW leverages a fine-tuned CLIP model as a lightweight prompt generator, which continuously monitors the digital readout of a scale and produces discrete directives based on task-specific weight thresholds. These prompts are then consumed by $π_0$, a flow-based VLA policy, which integrates the prompts with multi-view camera observations to produce continuous robot actions. This design enables CLAW to combine symbolic weight reasoning with high-frequency visuomotor control. We validate CLAW on three experimental setups: single-object grasping and mixed-object tasks requiring dual-arm manipulation. Across all conditions, CLAW reliably executes weight-aware behaviors and outperforms both raw-$π_0$ and fine-tuned $π_0$ models. We have uploaded the videos as supplementary materials.

CLAW: A Vision-Language-Action Framework for Weight-Aware Robotic Grasping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册