ESPADA: Execution Speedup via Semantics Aware Demonstration Data Downsampling for Imitation Learning
作者: Byungju Kim, Jinu Pahk, Chungwoo Lee, Jaejoon Kim, Jangha Lee, Theo Taeyeong Kim, Kyuhwan Shim, Jun Ki Lee, Byoung-Tak Zhang
分类: cs.RO, cs.AI
发布日期: 2025-12-08 (更新: 2025-12-15)
备注: project page: https://project-espada.github.io/espada/
💡 一句话要点
ESPADA:基于语义感知的模仿学习演示数据降采样加速执行
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模仿学习 行为克隆 视觉运动策略 语义分割 VLM-LLM 动态时间规整 机器人控制
📋 核心要点
- 现有加速模仿学习的方法忽略了任务语义,导致在不同操作环境中表现不佳。
- ESPADA利用VLM-LLM流水线分割演示,在非关键部分降采样,保留关键阶段的精度。
- 实验表明,ESPADA在保持成功率的同时,实现了约2倍的执行速度提升。
📝 摘要(中文)
基于行为克隆的视觉运动策略能够实现精确的操作,但通常会继承人类演示中缓慢、谨慎的节奏,从而限制了实际部署。然而,先前的加速方法主要依赖于忽略任务语义的统计或启发式线索,并且可能在不同的操作设置中失效。我们提出了ESPADA,一个语义和空间感知的框架,它使用VLM-LLM流水线以及3D夹爪-物体关系来分割演示,从而能够在非关键部分进行激进的降采样,同时保留精度关键阶段,而无需额外的数据或架构修改,也无需任何形式的再训练。为了从单个带注释的episode扩展到完整的数据集,ESPADA通过仅使用动力学特征的动态时间规整(DTW)来传播分割标签。在ACT和DP基线的模拟和真实世界实验中,ESPADA实现了大约2倍的加速,同时保持了成功率,缩小了人类演示和高效机器人控制之间的差距。
🔬 方法详解
问题定义:论文旨在解决基于行为克隆的模仿学习策略执行速度慢的问题。现有方法主要依赖统计或启发式信息,忽略了任务的语义信息,导致在复杂或多变的环境中加速效果不佳,甚至影响任务成功率。这些方法无法区分演示数据中哪些部分是关键的,哪些部分是可以加速的。
核心思路:ESPADA的核心思路是利用视觉语言模型(VLM)和大型语言模型(LLM)来理解演示数据的语义信息,从而区分演示中的关键阶段和非关键阶段。通过对非关键阶段进行激进的降采样,可以在不影响任务成功率的前提下,显著提高执行速度。这种方法的核心在于语义理解和有选择性的数据压缩。
技术框架:ESPADA的技术框架主要包含以下几个阶段:1) 使用VLM-LLM流水线对单个演示episode进行语义分割,标注出关键阶段和非关键阶段;2) 利用3D夹爪-物体关系进一步细化分割结果;3) 使用动态时间规整(DTW)算法,基于动力学特征将分割标签传播到整个数据集;4) 在训练或执行过程中,对非关键阶段的数据进行降采样。
关键创新:ESPADA的关键创新在于将VLM-LLM引入模仿学习的加速过程,实现了语义感知的演示数据降采样。与传统方法相比,ESPADA能够更准确地识别任务的关键阶段,从而在加速的同时保证任务的成功率。此外,利用DTW进行标签传播,避免了对整个数据集进行手动标注,提高了效率。
关键设计:VLM-LLM流水线用于生成每个时间步的文本描述,然后LLM根据这些描述判断当前步骤是否关键。3D夹爪-物体关系用于提供更精确的空间信息,辅助判断。DTW使用动力学特征(如关节角度、速度等)作为输入,以保证标签传播的准确性。降采样的比例可以根据实际需求进行调整,以平衡速度和精度。
🖼️ 关键图片
📊 实验亮点
ESPADA在模拟和真实世界的实验中,使用ACT和DP作为基线,实现了约2倍的执行速度提升,同时保持了任务的成功率。这表明ESPADA能够在不牺牲性能的前提下,显著提高模仿学习策略的效率,缩小了人类演示和高效机器人控制之间的差距。
🎯 应用场景
ESPADA可应用于各种需要快速、高效机器人操作的场景,例如工业自动化、物流分拣、医疗手术辅助等。通过加速机器人操作,可以提高生产效率、降低成本,并使机器人能够更好地适应动态变化的环境。该研究对于推动机器人技术在实际场景中的应用具有重要意义。
📄 摘要(原文)
Behavior-cloning based visuomotor policies enable precise manipulation but often inherit the slow, cautious tempo of human demonstrations, limiting practical deployment. However, prior studies on acceleration methods mainly rely on statistical or heuristic cues that ignore task semantics and can fail across diverse manipulation settings. We present ESPADA, a semantic and spatially aware framework that segments demonstrations using a VLM-LLM pipeline with 3D gripper-object relations, enabling aggressive downsampling only in non-critical segments while preserving precision-critical phases, without requiring extra data or architectural modifications, or any form of retraining. To scale from a single annotated episode to the full dataset, ESPADA propagates segment labels via Dynamic Time Warping (DTW) on dynamics-only features. Across both simulation and real-world experiments with ACT and DP baselines, ESPADA achieves approximately a 2x speed-up while maintaining success rates, narrowing the gap between human demonstrations and efficient robot control.