CLAW: A Vision-Language-Action Framework for Weight-Aware Robotic Grasping

作者: Zijian An, Ran Yang, Yiming Feng, Lifeng Zhou

分类: cs.RO

发布日期: 2025-09-17

备注: 8 pages, 5 figures, 1 table

💡 一句话要点

CLAW：一种用于重量感知机器人抓取的视觉-语言-动作框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人抓取 视觉语言动作 重量感知 CLIP模型 条件控制

📋 核心要点

现有VLA模型难以满足精确的任务约束，例如基于数值阈值停止，缺乏显式条件监控机制。
CLAW框架将条件评估与动作生成解耦，利用CLIP模型生成提示，指导基于流的VLA策略生成动作。
实验表明，CLAW在单对象抓取和混合对象任务中，能可靠执行重量感知行为，优于基线模型。

📝 摘要（中文）

视觉-语言-动作(VLA)模型最近作为一种有前景的机器人控制范例出现，它能够实现将自然语言指令融入视觉运动动作的端到端策略。然而，当前的VLA模型通常难以满足精确的任务约束，例如基于数值阈值停止，因为它们的观察到动作的映射是由训练数据隐式塑造的，并且缺乏用于条件监控的显式机制。在这项工作中，我们提出了CLAW（用于重量的CLIP-语言-动作），一个将条件评估与动作生成解耦的框架。CLAW利用微调的CLIP模型作为轻量级提示生成器，它持续监控秤的数字读数，并基于特定于任务的重量阈值生成离散指令。这些提示随后被$π_0$（一个基于流的VLA策略）使用，该策略将提示与多视角相机观察结果集成，以产生连续的机器人动作。这种设计使CLAW能够将符号重量推理与高频视觉运动控制相结合。我们在三个实验设置上验证了CLAW：单对象抓取和需要双臂操作的混合对象任务。在所有条件下，CLAW都能可靠地执行重量感知行为，并且优于原始$π_0$和微调的$π_0$模型。我们已将视频作为补充材料上传。

🔬 方法详解

问题定义：论文旨在解决现有视觉-语言-动作(VLA)模型在机器人控制中难以满足精确任务约束的问题，尤其是在需要基于数值阈值（如重量）停止的任务中。现有VLA模型的观察到动作的映射是隐式学习的，缺乏显式的条件监控机制，导致无法精确控制。

核心思路：论文的核心思路是将条件评估（例如，判断重量是否达到阈值）与动作生成解耦。通过引入一个轻量级的提示生成器（基于CLIP模型），该生成器负责持续监控环境状态（例如，秤的读数）并生成离散的指令（提示）。这些提示随后被VLA策略用于生成连续的机器人动作。这种解耦使得系统能够结合符号推理（重量阈值判断）和高频视觉运动控制。

技术框架：CLAW框架包含以下几个主要模块： 1. CLIP Prompt Generator：一个微调的CLIP模型，用于监控数字秤的读数，并根据预定义的重量阈值生成离散的提示（例如，“增加重量”，“停止”）。 2. Flow-based VLA Policy ($π_0$)：一个基于流的视觉-语言-动作策略，它接收来自CLIP Prompt Generator的提示以及多视角相机观察结果，并生成连续的机器人动作。 3. Robot Environment：包含机器人手臂、相机、秤以及待操作的对象。

关键创新：CLAW的关键创新在于将条件评估与动作生成解耦，并使用CLIP模型作为轻量级的提示生成器。这使得系统能够显式地监控环境状态，并根据预定义的规则生成指令，从而实现更精确的控制。与直接将视觉输入映射到动作的端到端VLA模型相比，CLAW引入了中间的符号推理步骤，提高了控制的可靠性和可解释性。

关键设计： 1. CLIP微调：使用特定于任务的数据集对CLIP模型进行微调，以提高其在重量感知任务中的性能。 2. 离散提示设计：设计了一组离散的提示，用于指导VLA策略的动作生成。这些提示基于预定义的重量阈值。 3. Flow-based VLA Policy：使用基于流的模型作为VLA策略，因为它能够学习复杂的动作分布，并生成平滑的连续动作。 4. 多视角相机：使用多视角相机来提高视觉感知的鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CLAW框架在单对象抓取和混合对象任务中均优于基线模型（原始$π_0$和微调的$π_0$）。CLAW能够可靠地执行重量感知行为，例如，在达到预定的重量阈值时停止添加物体。具体性能数据在论文的实验部分有详细描述，但摘要中未提供具体的性能提升幅度。

🎯 应用场景

CLAW框架具有广泛的应用前景，例如在自动化装配、食品加工、医疗机器人等领域。它可以用于需要精确控制和条件判断的机器人任务，例如，根据零件的重量选择合适的装配方式，或者根据食物的重量控制烹饪时间。该研究有助于提高机器人的智能化水平和适应性，使其能够更好地完成复杂任务。

📄 摘要（原文）

Vision-language-action (VLA) models have recently emerged as a promising paradigm for robotic control, enabling end-to-end policies that ground natural language instructions into visuomotor actions. However, current VLAs often struggle to satisfy precise task constraints, such as stopping based on numeric thresholds, since their observation-to-action mappings are implicitly shaped by training data and lack explicit mechanisms for condition monitoring. In this work, we propose CLAW (CLIP-Language-Action for Weight), a framework that decouples condition evaluation from action generation. CLAW leverages a fine-tuned CLIP model as a lightweight prompt generator, which continuously monitors the digital readout of a scale and produces discrete directives based on task-specific weight thresholds. These prompts are then consumed by $π_0$, a flow-based VLA policy, which integrates the prompts with multi-view camera observations to produce continuous robot actions. This design enables CLAW to combine symbolic weight reasoning with high-frequency visuomotor control. We validate CLAW on three experimental setups: single-object grasping and mixed-object tasks requiring dual-arm manipulation. Across all conditions, CLAW reliably executes weight-aware behaviors and outperforms both raw-$π_0$ and fine-tuned $π_0$ models. We have uploaded the videos as supplementary materials.

CLAW: A Vision-Language-Action Framework for Weight-Aware Robotic Grasping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理