Atomic Action Slicing: Planner-Aligned Options for Generalist VLA Agents
作者: Stefan Tabakov, Asen Popov, Dimitar Dimitrov, S. Ensiye Kiyamousavi, Vladimir Hristov, Boris Kraychev
分类: cs.LG, cs.AI, cs.RO
发布日期: 2025-12-12
备注: The 41st ACM/SIGAPP Symposium On Applied Computing
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出原子动作切分(AAS)方法,提升VLA通用智能体在复杂任务中的泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 原子动作切分 长时程任务 机器人操作 任务规划 泛化能力 CLIP-RT+ LIBERO数据集
📋 核心要点
- 现有VLA模型在处理需要组合新技能或对象的任务时,泛化能力不足,是当前研究面临的核心挑战。
- 论文提出原子动作切分(AAS)方法,将长时程任务分解为更易于学习和规划的短时原子动作片段。
- 实验表明,在原子数据集上微调CLIP-RT+后,LIBERO-Goal和LIBERO-Long任务的成功率分别提升至95.3%和88.8%。
📝 摘要(中文)
现有的视觉-语言-动作(VLA)模型泛化能力较差,尤其是在任务需要新的技能或对象组合时。我们引入了原子动作切分(AAS),这是一种与规划器对齐的方法,它将长时程演示分解为短的、类型化的原子动作,这些动作更容易被规划器使用和策略学习。使用LIBERO演示,AAS生成了一个经过验证的数据集,包含2,124个原子片段,并标注了动作类型、时间跨度和置信度。更强的分割器(Gemini 2.5 Pro)与规划器定义的计划紧密匹配,并在关键帧抖动下保持鲁棒性,而较小的模型在多对象任务上的表现较差。在我们的原子数据集上微调CLIP-RT+,LIBERO-Goal上的任务成功率从94.2%提高到95.3%,LIBERO-Long上的任务成功率从83.8%提高到88.8%。我们公开发布了HuggingFace上的GATE-VLAP数据集。
🔬 方法详解
问题定义:现有VLA模型在处理需要组合新技能或对象的复杂任务时,泛化能力较差。它们难以有效地利用长时程演示数据,并且难以适应新的任务组合。现有方法通常直接学习端到端的策略,缺乏对任务的细粒度理解和规划能力。
核心思路:论文的核心思路是将长时程的任务演示分解为一系列短的、类型化的原子动作。通过这种分解,可以使规划器更容易理解任务目标,并使策略学习更加高效。原子动作的定义与规划器的需求对齐,从而更好地利用规划器的先验知识。
技术框架:整体框架包括以下几个主要阶段:1) 使用LIBERO数据集的长时程演示数据。2) 使用原子动作切分(AAS)方法将长时程演示分解为原子动作片段,并标注动作类型、时间跨度和置信度。3) 使用分割模型(如Gemini 2.5 Pro)进行原子动作片段的分割。4) 在分割后的原子动作数据集上微调VLA模型(如CLIP-RT+)。5) 在LIBERO-Goal和LIBERO-Long等任务上评估微调后的VLA模型的性能。
关键创新:最重要的技术创新点是原子动作切分(AAS)方法,它能够将长时程任务分解为更易于学习和规划的原子动作片段。与现有方法相比,AAS方法更加关注任务的细粒度结构,并且能够更好地利用规划器的先验知识。此外,论文还验证了使用更强大的分割模型(如Gemini 2.5 Pro)可以提高原子动作分割的准确性。
关键设计:论文的关键设计包括:1) 原子动作的定义与规划器的需求对齐,确保原子动作片段能够被规划器有效地利用。2) 使用Gemini 2.5 Pro等强大的分割模型来提高原子动作分割的准确性。3) 在原子动作数据集上微调CLIP-RT+等VLA模型,以提高其在复杂任务中的泛化能力。论文还考虑了关键帧抖动等因素,以提高原子动作分割的鲁棒性。
📊 实验亮点
实验结果表明,在原子数据集上微调CLIP-RT+后,LIBERO-Goal任务的成功率从94.2%提高到95.3%,LIBERO-Long任务的成功率从83.8%提高到88.8%。这表明原子动作切分方法能够有效地提高VLA模型在复杂任务中的性能。此外,实验还表明,更强大的分割模型(如Gemini 2.5 Pro)可以提高原子动作分割的准确性。
🎯 应用场景
该研究成果可应用于机器人操作、自动驾驶、智能助手等领域。通过将复杂任务分解为原子动作,可以提高机器人在复杂环境中的适应性和泛化能力,使其能够更好地完成各种任务,例如家庭服务、工业自动化等。未来,该方法有望推动通用人工智能的发展。
📄 摘要(原文)
Current vision-language-action (VLA) models generalize poorly, particularly when tasks require new compositions of skills or objects. We introduce Atomic Action Slicing (AAS), a planner-aligned approach that decomposes long-horizon demonstrations into short, typed atomic actions that are easier for planners to use and policies to learn. Using LIBERO demonstrations, AAS produces a validated dataset of 2,124 atomic segments labeled with action type, temporal span, and confidence. A stronger segmenter (Gemini 2.5 Pro) closely matches planner-defined plans and remains robust under keyframe jitter, while smaller models perform worse on multi-object tasks. Fine-tuning CLIP-RT+ on our atomic dataset improves task success from 94.2% to 95.3% on LIBERO-Goal and 83.8% to 88.8% on LIBERO-Long. We publicly release the GATE-VLAP dataset on HuggingFace(https://huggingface.co/datasets/gate-institute/GATE-VLAP-datasets)