Atomic Action Slicing: Planner-Aligned Options for Generalist VLA Agents

作者: Stefan Tabakov, Asen Popov, Dimitar Dimitrov, S. Ensiye Kiyamousavi, Vladimir Hristov, Boris Kraychev

分类: cs.LG, cs.AI, cs.RO

发布日期: 2025-12-12

备注: The 41st ACM/SIGAPP Symposium On Applied Computing

DOI: 10.1145/3748522.3779892

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

提出原子动作切分(AAS)方法，提升VLA通用智能体在复杂任务中的泛化能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 原子动作切分 长时程任务 机器人操作 任务规划 泛化能力 CLIP-RT+ LIBERO数据集

📋 核心要点

现有VLA模型在处理需要组合新技能或对象的任务时，泛化能力不足，是当前研究面临的核心挑战。
论文提出原子动作切分(AAS)方法，将长时程任务分解为更易于学习和规划的短时原子动作片段。
实验表明，在原子数据集上微调CLIP-RT+后，LIBERO-Goal和LIBERO-Long任务的成功率分别提升至95.3%和88.8%。

📝 摘要（中文）

现有的视觉-语言-动作(VLA)模型泛化能力较差，尤其是在任务需要新的技能或对象组合时。我们引入了原子动作切分(AAS)，这是一种与规划器对齐的方法，它将长时程演示分解为短的、类型化的原子动作，这些动作更容易被规划器使用和策略学习。使用LIBERO演示，AAS生成了一个经过验证的数据集，包含2,124个原子片段，并标注了动作类型、时间跨度和置信度。更强的分割器(Gemini 2.5 Pro)与规划器定义的计划紧密匹配，并在关键帧抖动下保持鲁棒性，而较小的模型在多对象任务上的表现较差。在我们的原子数据集上微调CLIP-RT+，LIBERO-Goal上的任务成功率从94.2%提高到95.3%，LIBERO-Long上的任务成功率从83.8%提高到88.8%。我们公开发布了HuggingFace上的GATE-VLAP数据集。

🔬 方法详解

问题定义：现有VLA模型在处理需要组合新技能或对象的复杂任务时，泛化能力较差。它们难以有效地利用长时程演示数据，并且难以适应新的任务组合。现有方法通常直接学习端到端的策略，缺乏对任务的细粒度理解和规划能力。

核心思路：论文的核心思路是将长时程的任务演示分解为一系列短的、类型化的原子动作。通过这种分解，可以使规划器更容易理解任务目标，并使策略学习更加高效。原子动作的定义与规划器的需求对齐，从而更好地利用规划器的先验知识。

技术框架：整体框架包括以下几个主要阶段：1) 使用LIBERO数据集的长时程演示数据。2) 使用原子动作切分(AAS)方法将长时程演示分解为原子动作片段，并标注动作类型、时间跨度和置信度。3) 使用分割模型（如Gemini 2.5 Pro）进行原子动作片段的分割。4) 在分割后的原子动作数据集上微调VLA模型（如CLIP-RT+）。5) 在LIBERO-Goal和LIBERO-Long等任务上评估微调后的VLA模型的性能。

关键创新：最重要的技术创新点是原子动作切分(AAS)方法，它能够将长时程任务分解为更易于学习和规划的原子动作片段。与现有方法相比，AAS方法更加关注任务的细粒度结构，并且能够更好地利用规划器的先验知识。此外，论文还验证了使用更强大的分割模型（如Gemini 2.5 Pro）可以提高原子动作分割的准确性。

关键设计：论文的关键设计包括：1) 原子动作的定义与规划器的需求对齐，确保原子动作片段能够被规划器有效地利用。2) 使用Gemini 2.5 Pro等强大的分割模型来提高原子动作分割的准确性。3) 在原子动作数据集上微调CLIP-RT+等VLA模型，以提高其在复杂任务中的泛化能力。论文还考虑了关键帧抖动等因素，以提高原子动作分割的鲁棒性。

📊 实验亮点

实验结果表明，在原子数据集上微调CLIP-RT+后，LIBERO-Goal任务的成功率从94.2%提高到95.3%，LIBERO-Long任务的成功率从83.8%提高到88.8%。这表明原子动作切分方法能够有效地提高VLA模型在复杂任务中的性能。此外，实验还表明，更强大的分割模型（如Gemini 2.5 Pro）可以提高原子动作分割的准确性。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶、智能助手等领域。通过将复杂任务分解为原子动作，可以提高机器人在复杂环境中的适应性和泛化能力，使其能够更好地完成各种任务，例如家庭服务、工业自动化等。未来，该方法有望推动通用人工智能的发展。

📄 摘要（原文）

Current vision-language-action (VLA) models generalize poorly, particularly when tasks require new compositions of skills or objects. We introduce Atomic Action Slicing (AAS), a planner-aligned approach that decomposes long-horizon demonstrations into short, typed atomic actions that are easier for planners to use and policies to learn. Using LIBERO demonstrations, AAS produces a validated dataset of 2,124 atomic segments labeled with action type, temporal span, and confidence. A stronger segmenter (Gemini 2.5 Pro) closely matches planner-defined plans and remains robust under keyframe jitter, while smaller models perform worse on multi-object tasks. Fine-tuning CLIP-RT+ on our atomic dataset improves task success from 94.2% to 95.3% on LIBERO-Goal and 83.8% to 88.8% on LIBERO-Long. We publicly release the GATE-VLAP dataset on HuggingFace(https://huggingface.co/datasets/gate-institute/GATE-VLAP-datasets)

Atomic Action Slicing: Planner-Aligned Options for Generalist VLA Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理