Gentle Manipulation Policy Learning via Demonstrations from VLM Planned Atomic Skills

📄 arXiv: 2511.05855v1 📥 PDF

作者: Jiayu Zhou, Qiwei Wu, Jian Li, Zhe Chen, Xiaogang Xiong, Renjing Xu

分类: cs.RO

发布日期: 2025-11-08

备注: Accepted for the 40th Annual AAAI Conference on Artificial Intelligence (2026)


💡 一句话要点

提出基于VLM规划原子技能的柔性操作策略学习框架,无需人工演示。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 操作策略学习 视觉语言模型 强化学习 知识蒸馏 机器人操作

📋 核心要点

  1. 长时程操作任务依赖大量真实数据和人工设计,成本高且难以扩展。
  2. 利用VLM进行任务分解和技能规划,生成专家演示,再通过知识蒸馏学习统一策略。
  3. 通过模拟和物理实验验证,该方法无需人工演示即可学习长时程操作策略,并具备良好的泛化能力。

📝 摘要(中文)

本文提出了一种新颖的框架,该框架集成了分层语义分解、强化学习(RL)、视觉语言模型(VLM)和知识蒸馏,以克服长时程、接触丰富的操作任务中数据需求和工程挑战。复杂任务被分解为原子技能,每个原语的策略仅在模拟环境中通过强化学习训练,并显式地加入力约束以防止物体损坏。视觉语言模型执行高层任务分解和技能规划,生成多样化的专家演示。这些演示通过视觉-触觉扩散策略被提炼成统一的策略,用于端到端执行。通过消融实验探索了不同的基于VLM的任务规划器,以确定最佳的演示生成流程,并系统地比较了用于技能蒸馏的模仿学习算法。大量的模拟实验和物理部署验证了该方法可以在没有昂贵的人工演示的情况下实现长时程操作的策略学习,同时VLM引导的原子技能框架能够扩展泛化到不同的任务。

🔬 方法详解

问题定义:现有长时程、接触丰富的操作任务,需要大量真实世界数据和专家工程,导致成本高昂且难以扩展。尤其是在柔性操作中,需要精确控制力以避免损坏物体,这进一步增加了数据收集的难度。

核心思路:将复杂任务分解为一系列原子技能,每个技能通过强化学习在模拟环境中训练。利用视觉语言模型(VLM)进行高层任务分解和技能规划,生成多样化的专家演示。然后,通过模仿学习将这些演示提炼成一个统一的策略,实现端到端的任务执行。核心在于利用VLM的强大语义理解能力来指导技能规划,从而避免了对大量人工演示数据的依赖。

技术框架:整体框架包含三个主要阶段:1) 原子技能学习:使用强化学习在模拟环境中训练每个原子技能的策略,并加入力约束。2) VLM任务规划:利用VLM进行高层任务分解和技能规划,生成一系列原子技能序列作为专家演示。3) 策略蒸馏:使用模仿学习将VLM生成的专家演示提炼成一个统一的策略,用于端到端的任务执行。该框架采用分层结构,将复杂任务分解为易于学习和泛化的原子技能。

关键创新:该方法的核心创新在于将视觉语言模型(VLM)引入到操作策略学习中,利用VLM的语义理解和规划能力来生成专家演示,从而避免了对大量人工演示数据的依赖。与传统的强化学习方法相比,该方法能够更有效地学习长时程、接触丰富的操作任务。此外,显式的力约束强化学习训练也保证了柔性操作的安全性。

关键设计:在原子技能学习阶段,使用了强化学习算法(具体算法未知)并加入了力约束,以防止物体损坏。在VLM任务规划阶段,探索了不同的VLM模型和提示工程方法,以生成高质量的专家演示。在策略蒸馏阶段,使用了视觉-触觉扩散策略(Visual-Tactile Diffusion Policy),并比较了不同的模仿学习算法(具体算法未知)。损失函数的设计目标是最小化模仿学习的误差,并保证策略的平滑性和泛化能力。具体的网络结构和参数设置在论文中可能有所描述,但此处未知。

📊 实验亮点

实验结果表明,该方法能够在模拟环境中成功学习长时程操作策略,并在物理机器人上实现了有效的部署。通过对比不同的VLM任务规划器和模仿学习算法,确定了最佳的演示生成和策略蒸馏流程。具体的性能数据和提升幅度未知,但论文强调了该方法在无需人工演示的情况下,实现了对复杂操作任务的有效学习和泛化。

🎯 应用场景

该研究成果可应用于自动化装配、精密仪器操作、医疗机器人、家庭服务机器人等领域。通过VLM引导的原子技能学习,机器人能够更灵活、安全地完成复杂的操作任务,降低了对人工干预的依赖,提高了生产效率和服务质量。未来,该技术有望推动机器人智能化水平的提升,使其更好地服务于人类社会。

📄 摘要(原文)

Autonomous execution of long-horizon, contact-rich manipulation tasks traditionally requires extensive real-world data and expert engineering, posing significant cost and scalability challenges. This paper proposes a novel framework integrating hierarchical semantic decomposition, reinforcement learning (RL), visual language models (VLMs), and knowledge distillation to overcome these limitations. Complex tasks are decomposed into atomic skills, with RL-trained policies for each primitive exclusively in simulation. Crucially, our RL formulation incorporates explicit force constraints to prevent object damage during delicate interactions. VLMs perform high-level task decomposition and skill planning, generating diverse expert demonstrations. These are distilled into a unified policy via Visual-Tactile Diffusion Policy for end-to-end execution. We conduct comprehensive ablation studies exploring different VLM-based task planners to identify optimal demonstration generation pipelines, and systematically compare imitation learning algorithms for skill distillation. Extensive simulation experiments and physical deployment validate that our approach achieves policy learning for long-horizon manipulation without costly human demonstrations, while the VLM-guided atomic skill framework enables scalable generalization to diverse tasks.