PerFACT: Motion Policy with LLM-Powered Dataset Synthesis and Fusion Action-Chunking Transformers

📄 arXiv: 2512.03444v1 📥 PDF

作者: Davood Soleymanzadeh, Xiao Liang, Minghui Zheng

分类: cs.RO, eess.SY

发布日期: 2025-12-03


💡 一句话要点

PerFACT:利用LLM驱动的数据集合成和融合动作分块Transformer提升机器人运动策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人运动规划 大型语言模型 数据集合成 Transformer网络 动作分块 神经运动规划 泛化能力

📋 核心要点

  1. 现有神经运动规划器依赖于小规模人工数据集,泛化能力不足,难以适应真实场景。
  2. 提出PerFACT,利用LLM生成多样化工作空间,并设计融合动作分块Transformer来提升规划性能。
  3. 实验表明,PerFACT在规划速度上显著优于现有方法,验证了其有效性和优越性。

📝 摘要(中文)

本文提出了一种名为PerFACT的运动策略方法,该方法结合了由大型语言模型(LLM)驱动的数据集合成和融合动作分块Transformer。为了解决现有神经运动规划器在手动生成的小数据集上训练,泛化能力受限的问题,首先引入了一种新颖的LLM驱动的工作空间生成方法MotionGeneralizer,通过生成多样且语义上可行的工作空间来实现大规模规划数据的收集。其次,提出了Fusion Motion Policy Networks (MpiNetsFusion),这是一个通用的神经运动规划器,它使用融合动作分块Transformer来更好地编码规划信号并关注多个特征模态。利用MotionGeneralizer收集的350万条轨迹来训练和评估MpiNetsFusion,结果表明,所提出的MpiNetsFusion在评估的任务上规划速度比最先进的规划器快数倍。

🔬 方法详解

问题定义:现有基于深度学习的机器人运动规划方法主要依赖于在手动生成的工作空间中收集的小规模数据集进行训练,这限制了它们在分布外场景中的泛化能力。此外,这些规划器通常采用单体网络架构,难以有效编码关键的规划信息,导致性能瓶颈。

核心思路:本文的核心思路是利用大型语言模型(LLM)生成多样化的、语义上合理的工作空间,从而实现大规模规划数据的自动合成。同时,设计一种新的融合动作分块Transformer网络结构,以更好地编码规划信号和融合多模态特征,从而提升运动规划器的性能和泛化能力。

技术框架:PerFACT包含两个主要组成部分:MotionGeneralizer和Fusion Motion Policy Networks (MpiNetsFusion)。MotionGeneralizer是一个LLM驱动的工作空间生成器,负责生成大规模的、多样化的工作空间数据。MpiNetsFusion是一个通用的神经运动规划器,它使用融合动作分块Transformer来处理输入数据并生成运动规划策略。整个流程是先使用MotionGeneralizer生成训练数据,然后使用这些数据训练MpiNetsFusion,最后评估MpiNetsFusion在各种任务上的性能。

关键创新:本文最重要的技术创新点在于将大型语言模型(LLM)引入到机器人运动规划的数据集生成过程中。传统的运动规划数据集通常是手动创建的,规模小且多样性有限。而本文利用LLM的强大生成能力,可以自动生成大规模的、多样化的工作空间,从而显著提升了训练数据的质量和数量。此外,融合动作分块Transformer的设计也是一个创新点,它能够更好地编码规划信号和融合多模态特征。

关键设计:MotionGeneralizer的具体实现细节未知,但可以推测其利用LLM生成场景描述,然后将这些描述转化为具体的3D工作空间模型。MpiNetsFusion的关键设计在于融合动作分块Transformer,其具体结构和参数设置未知,但可以推测其采用了Transformer的自注意力机制来编码规划信号,并使用某种融合机制来处理多模态特征。损失函数和训练策略的具体细节也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,利用MotionGeneralizer生成350万条轨迹训练的MpiNetsFusion,在评估的任务上规划速度比最先进的规划器快数倍。这表明,通过LLM驱动的数据集合成和融合动作分块Transformer,可以显著提升机器人运动规划的性能。

🎯 应用场景

该研究成果可广泛应用于各种机器人运动规划场景,例如工业自动化、物流搬运、家庭服务机器人等。通过自动生成大规模训练数据,可以显著降低运动规划算法的开发成本,并提升其在复杂环境中的适应能力。未来,该方法有望推动机器人技术在更多领域的应用。

📄 摘要(原文)

Deep learning methods have significantly enhanced motion planning for robotic manipulators by leveraging prior experiences within planning datasets. However, state-of-the-art neural motion planners are primarily trained on small datasets collected in manually generated workspaces, limiting their generalizability to out-of-distribution scenarios. Additionally, these planners often rely on monolithic network architectures that struggle to encode critical planning information. To address these challenges, we introduce Motion Policy with Dataset Synthesis powered by large language models (LLMs) and Fusion Action-Chunking Transformers (PerFACT), which incorporates two key components. Firstly, a novel LLM-powered workspace generation method, MotionGeneralizer, enables large-scale planning data collection by producing a diverse set of semantically feasible workspaces. Secondly, we introduce Fusion Motion Policy Networks (MpiNetsFusion), a generalist neural motion planner that uses a fusion action-chunking transformer to better encode planning signals and attend to multiple feature modalities. Leveraging MotionGeneralizer, we collect 3.5M trajectories to train and evaluate MpiNetsFusion against state-of-the-art planners, which shows that the proposed MpiNetsFusion can plan several times faster on the evaluated tasks.