RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics

作者: Zhiyuan Zhang, Yuxin He, Yong Sun, Junyu Shi, Lijiang Liu, Qiang Nie

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-04-02

备注: IROS 2025

💡 一句话要点

RoboAct-CLIP：面向机器人原子动作理解的视频驱动预训练模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 原子动作理解 视觉语言模型 预训练 时间解耦 对比学习 数据集重建

📋 核心要点

现有VLM在机器人操作中缺乏对时间相关动作语义的有效建模，限制了其在复杂任务中的应用。
RoboAct-CLIP通过数据集重建和时间解耦微调，提升模型对原子动作的理解和泛化能力。
实验表明，RoboAct-CLIP在模拟环境中比基线VLM成功率高12%，并展现出更强的多对象操作泛化能力。

📝 摘要（中文）

视觉语言模型(VLM)已成为机器人系统的关键工具，通过多模态感知和语义推理实现跨任务泛化、动态环境交互和长时程规划。然而，现有的开源VLM主要针对通用视觉-语言对齐任务进行训练，无法有效地建模机器人操作中至关重要的时间相关的动作语义。虽然当前基于图像的微调方法在一定程度上使VLM适应机器人应用，但它们从根本上忽略了视频序列中的时间演化模式，并且受到机器人代理、被操纵对象和环境上下文之间的视觉特征纠缠的影响，从而限制了原子动作的语义解耦能力，并损害了模型的泛化能力。为了克服这些挑战，本工作提出了RoboAct-CLIP，具有双重技术贡献：1)一个数据集重建框架，对开源机器人视频执行语义约束的动作单元分割和重新标注，构建包含单一原子动作（例如，“抓取”）的纯化训练集；2)一种基于对比语言-图像预训练(CLIP)架构的时间解耦微调策略，该策略将视频帧中的时间动作特征与以对象为中心的特征分离，以实现机器人原子动作的分层表示学习。在模拟环境中的实验结果表明，RoboAct-CLIP预训练模型比基线VLM实现了高12%的成功率，并在多对象操作任务中具有更好的泛化能力。

🔬 方法详解

问题定义：现有视觉语言模型（VLM）在机器人领域应用时，无法有效理解和区分机器人操作中的原子动作，例如“抓取”、“放置”等。这些模型通常在通用视觉-语言对齐任务上训练，忽略了视频序列中动作的时间演化信息，并且容易受到机器人、物体和环境视觉特征的干扰，导致语义解耦能力不足，泛化性差。

核心思路：RoboAct-CLIP的核心思路是通过两个关键步骤来解决上述问题：首先，通过语义约束的动作单元分割和重新标注，构建一个高质量的、包含单一原子动作的机器人视频数据集。其次，设计一种时间解耦微调策略，将视频帧中的时间动作特征与物体特征分离，从而学习到更鲁棒和可泛化的原子动作表示。

技术框架：RoboAct-CLIP的整体框架包含两个主要阶段：数据集重建和模型微调。数据集重建阶段，首先对现有的机器人视频数据集进行语义分析，然后进行动作单元分割，并对分割后的视频片段进行重新标注，确保每个片段只包含一个清晰的原子动作。模型微调阶段，采用基于CLIP架构的时间解耦微调策略，利用重建后的数据集对模型进行训练，使其能够更好地理解和区分不同的原子动作。

关键创新：RoboAct-CLIP的关键创新在于其时间解耦微调策略和数据集重建框架。时间解耦微调策略通过对比学习的方式，鼓励模型学习到与时间相关的动作特征，同时抑制与物体相关的特征，从而提高模型的泛化能力。数据集重建框架则保证了训练数据的质量，为模型的有效学习提供了保障。

关键设计：在数据集重建方面，采用了语义约束的分割算法，确保分割后的视频片段包含完整的原子动作，并避免引入无关的视觉信息。在模型微调方面，采用了对比学习损失函数，鼓励模型学习到不同原子动作之间的区分性特征。具体的网络结构基于CLIP，并针对机器人原子动作理解任务进行了优化。

🖼️ 关键图片

📊 实验亮点

RoboAct-CLIP在模拟环境中进行了实验验证，结果表明，与基线VLM相比，RoboAct-CLIP的成功率提高了12%。此外，RoboAct-CLIP在多对象操作任务中表现出更强的泛化能力，表明其能够更好地理解和区分不同的原子动作，并适应不同的环境和物体。

🎯 应用场景

RoboAct-CLIP可应用于各种机器人操作任务，例如自动化装配、物体抓取、家庭服务机器人等。通过提升机器人对原子动作的理解能力，可以实现更智能、更灵活的机器人控制，从而提高生产效率和服务质量。未来，该研究可进一步扩展到更复杂的机器人任务，例如长时程规划和人机协作。

📄 摘要（原文）

Visual Language Models (VLMs) have emerged as pivotal tools for robotic systems, enabling cross-task generalization, dynamic environmental interaction, and long-horizon planning through multimodal perception and semantic reasoning. However, existing open-source VLMs predominantly trained for generic vision-language alignment tasks fail to model temporally correlated action semantics that are crucial for robotic manipulation effectively. While current image-based fine-tuning methods partially adapt VLMs to robotic applications, they fundamentally disregard temporal evolution patterns in video sequences and suffer from visual feature entanglement between robotic agents, manipulated objects, and environmental contexts, thereby limiting semantic decoupling capability for atomic actions and compromising model generalizability.To overcome these challenges, this work presents RoboAct-CLIP with dual technical contributions: 1) A dataset reconstruction framework that performs semantic-constrained action unit segmentation and re-annotation on open-source robotic videos, constructing purified training sets containing singular atomic actions (e.g., "grasp"); 2) A temporal-decoupling fine-tuning strategy based on Contrastive Language-Image Pretraining (CLIP) architecture, which disentangles temporal action features across video frames from object-centric characteristics to achieve hierarchical representation learning of robotic atomic actions.Experimental results in simulated environments demonstrate that the RoboAct-CLIP pretrained model achieves a 12% higher success rate than baseline VLMs, along with superior generalization in multi-object manipulation tasks.

RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理