Language-Grounded Decoupled Action Representation for Robotic Manipulation
作者: Wuding Weng, Tongshu Wu, Liucheng Chen, Siyu Xie, Zheng Wang, Xing Xu, Jingkuan Song, Heng Tao Shen
分类: cs.RO
发布日期: 2026-03-13
备注: Accepted by CVPR2026
💡 一句话要点
提出LaDA框架,通过解耦动作表示和语义引导学习,提升机器人操作的泛化性和动作一致性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 自然语言引导 解耦动作表示 对比学习 泛化能力 动作原语 语义理解
📋 核心要点
- 现有机器人操作方法难以在新任务或语义相关任务中生成鲁棒和准确的动作。
- LaDA框架利用自然语言作为语义桥梁,解耦动作表示为平移、旋转和夹爪控制等原语。
- LaDA在模拟和真实世界实验中表现出色,泛化能力强,动作一致性高。
📝 摘要(中文)
机器人操作中,高级视觉-语言理解与低级动作控制之间的异构性是一个根本挑战。尽管现有方法在特定任务的动作对齐方面有所进展,但它们在生成针对新任务或语义相关任务的鲁棒和准确动作时常常遇到困难。为了解决这个问题,我们提出了语言引导的解耦动作表示(LaDA)框架,该框架利用自然语言作为连接感知和控制的语义桥梁。LaDA引入了一个细粒度的中间层,包含三个可解释的动作原语——平移、旋转和夹爪控制——为低级动作提供显式的语义结构。它进一步采用语义引导的软标签对比学习目标,以对齐跨任务的相似动作原语,从而增强泛化性和运动一致性。一种受课程学习启发的自适应加权策略,动态平衡对比和模仿目标,以实现稳定和有效的训练。在模拟基准(LIBERO和MimicGen)和真实世界演示上的大量实验验证了LaDA实现了强大的性能,并有效地泛化到未见或相关任务。
🔬 方法详解
问题定义:现有机器人操作方法在处理新任务或语义相关任务时,由于高级视觉-语言理解与低级动作控制之间的异构性,难以生成鲁棒和准确的动作。这些方法通常针对特定任务进行优化,缺乏泛化能力。
核心思路:LaDA的核心思路是将复杂的机器人动作分解为三个可解释的动作原语:平移、旋转和夹爪控制。通过自然语言作为语义桥梁,将视觉感知与动作控制连接起来,利用语义信息指导动作原语的学习和组合,从而提高泛化能力和动作一致性。
技术框架:LaDA框架包含以下主要模块:1) 视觉感知模块,用于提取场景的视觉特征;2) 语言理解模块,用于解析自然语言指令;3) 解耦动作表示模块,将动作分解为平移、旋转和夹爪控制三个原语;4) 语义引导的对比学习模块,用于对齐相似的动作原语;5) 动作执行模块,将动作原语转化为低级控制指令。整体流程是从视觉和语言输入开始,经过各个模块的处理,最终生成机器人执行的动作。
关键创新:LaDA的关键创新在于解耦动作表示和语义引导的对比学习。解耦动作表示将复杂的动作分解为更易于理解和学习的动作原语,降低了学习难度。语义引导的对比学习利用自然语言的语义信息,对齐跨任务的相似动作原语,提高了泛化能力。
关键设计:LaDA采用软标签对比学习损失函数,鼓励模型学习相似动作原语的相似表示。此外,采用了一种自适应加权策略,动态平衡对比学习损失和模仿学习损失,以实现稳定和有效的训练。网络结构方面,使用了Transformer网络来处理视觉和语言信息,并使用多层感知机来预测动作原语。
🖼️ 关键图片
📊 实验亮点
LaDA在LIBERO和MimicGen等模拟基准测试中取得了显著的性能提升,并且在真实世界的演示中也表现出良好的泛化能力。实验结果表明,LaDA能够有效地处理未见过的任务和语义相关的任务,并且能够生成更加鲁棒和一致的动作。与现有方法相比,LaDA在多个指标上都取得了显著的提升。
🎯 应用场景
LaDA框架可应用于各种机器人操作任务,例如家庭服务机器人、工业机器人和医疗机器人。它可以使机器人能够理解自然语言指令,并执行复杂的任务,例如整理物品、组装零件和辅助手术。该研究的潜在价值在于提高机器人的智能化水平和自主性,使其能够更好地服务于人类。
📄 摘要(原文)
The heterogeneity between high-level vision-language understanding and low-level action control remains a fundamental challenge in robotic manipulation. Although recent methods have advanced task-specific action alignment, they often struggle to generate robust and accurate actions for novel or semantically related tasks. To address this, we propose the Language-Grounded Decoupled Action Representation (LaDA) framework, which leverages natural language as a semantic bridge to connect perception and control. LaDA introduces a fine-grained intermediate layer of three interpretable action primitives--translation, rotation, and gripper control--providing explicit semantic structure for low-level actions. It further employs a semantic-guided soft-label contrastive learning objective to align similar action primitives across tasks, enhancing generalization and motion consistency. An adaptive weighting strategy, inspired by curriculum learning, dynamically balances contrastive and imitation objectives for stable and effective training. Extensive experiments on simulated benchmarks (LIBERO and MimicGen) and real-world demonstrations validate that LaDA achieves strong performance and generalizes effectively to unseen or related tasks.