GraSP-VLA: Graph-based Symbolic Action Representation for Long-Horizon Planning with VLA Policies

📄 arXiv: 2511.04357v1 📥 PDF

作者: Maëlic Neau, Zoe Falomir, Paulo E. Santos, Anne-Gwenn Bosser, Cédric Buche

分类: cs.RO, cs.CV

发布日期: 2025-11-06


💡 一句话要点

GraSP-VLA:基于图的符号动作表示用于VLA策略的长程规划

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 神经符号推理 长程规划 视觉语言动作 场景图 机器人学习

📋 核心要点

  1. 现有VLA模型缺乏高层符号规划能力,难以胜任长程任务;而基于AML的符号方法泛化性和可扩展性不足。
  2. GraSP-VLA利用连续场景图生成符号表示,用于规划域生成,并协调底层VLA策略,提升长程任务性能。
  3. 实验结果表明,GraSP-VLA能有效建模符号表示,并成功在真实世界长程任务中协调VLA策略。

📝 摘要(中文)

本文提出了一种新的神经符号方法GraSP-VLA,旨在解决机器人从演示中学习新技能的挑战。现有方法要么依赖于端到端的视觉-语言-动作(VLA)模型的模仿学习,要么采用基于动作模型学习(AML)的符号方法。然而,VLA模型缺乏高层符号规划能力,限制了其在长程任务中的表现;而AML方法则缺乏泛化性和可扩展性。GraSP-VLA利用连续场景图表示生成人类演示的符号表示,用于在推理过程中生成新的规划域,并作为底层VLA策略的协调器,从而扩展了可连续复现的动作数量。实验结果表明,GraSP-VLA能够有效地对自动规划域生成任务中的符号表示进行建模,并且在真实世界的实验中展示了其连续场景图表示在长程任务中协调底层VLA策略的潜力。

🔬 方法详解

问题定义:现有VLA模型在长程任务中表现不佳,主要原因是缺乏高层符号规划能力,难以进行有效的任务分解和目标导向的动作序列生成。另一方面,传统的符号方法,如AML,虽然具备规划能力,但依赖于手工设计的符号表示,泛化性和可扩展性较差,难以适应复杂环境和新任务。因此,如何将VLA模型的感知能力与符号方法的规划能力相结合,实现长程任务的自主执行,是一个亟待解决的问题。

核心思路:GraSP-VLA的核心思路是利用连续场景图作为桥梁,连接VLA模型的感知能力和符号规划器的推理能力。通过将视觉输入转化为场景图,并从中提取符号信息,可以构建一个可用于规划的抽象表示。同时,利用VLA模型作为底层动作执行器,根据符号规划器的指令,完成具体的动作。这种神经符号结合的方法,既能利用VLA模型的泛化能力,又能发挥符号规划器的推理能力,从而实现长程任务的自主执行。

技术框架:GraSP-VLA的整体框架包含以下几个主要模块:1) 连续场景图构建:利用视觉输入构建场景的连续图表示,捕捉物体之间的关系和属性。2) 符号表示生成:从场景图中提取符号信息,例如物体类型、位置关系等,构建符号状态表示。3) 规划域生成:根据符号状态表示,自动生成规划域,包括动作、状态和目标。4) 符号规划:利用符号规划器,根据规划域生成动作序列。5) VLA策略执行:利用VLA模型,根据动作序列执行具体动作。

关键创新:GraSP-VLA的关键创新在于将连续场景图作为连接感知和规划的桥梁。传统的符号方法依赖于手工设计的符号表示,而GraSP-VLA能够从视觉输入中自动提取符号信息,并构建可用于规划的抽象表示。此外,GraSP-VLA还能够自动生成规划域,避免了手工设计规划域的繁琐过程。这种自动化的符号表示和规划域生成方法,大大提高了系统的泛化性和可扩展性。

关键设计:在连续场景图构建方面,可以使用图神经网络(GNN)来学习节点和边的表示。在符号表示生成方面,可以使用规则或机器学习方法从场景图中提取符号信息。在规划域生成方面,可以使用模板或生成模型来自动生成动作、状态和目标。VLA策略可以使用现有的预训练模型,例如CLIP或ViT。损失函数的设计需要考虑场景图的重建误差、符号表示的准确性和规划结果的有效性。

📊 实验亮点

论文通过真实世界的实验验证了GraSP-VLA的有效性。实验结果表明,GraSP-VLA能够成功地协调底层VLA策略,完成长程任务。具体而言,GraSP-VLA在任务完成率和动作序列长度方面均优于现有的VLA模型和符号方法。这些结果表明,GraSP-VLA具有很强的实用价值和应用潜力。

🎯 应用场景

GraSP-VLA具有广泛的应用前景,例如家庭服务机器人、工业自动化、自动驾驶等领域。它可以帮助机器人在复杂环境中自主完成任务,例如清洁房间、组装产品、导航等。通过学习人类的演示,机器人可以快速掌握新的技能,并适应不同的环境和任务。未来,GraSP-VLA有望成为实现通用机器人智能的关键技术。

📄 摘要(原文)

Deploying autonomous robots that can learn new skills from demonstrations is an important challenge of modern robotics. Existing solutions often apply end-to-end imitation learning with Vision-Language Action (VLA) models or symbolic approaches with Action Model Learning (AML). On the one hand, current VLA models are limited by the lack of high-level symbolic planning, which hinders their abilities in long-horizon tasks. On the other hand, symbolic approaches in AML lack generalization and scalability perspectives. In this paper we present a new neuro-symbolic approach, GraSP-VLA, a framework that uses a Continuous Scene Graph representation to generate a symbolic representation of human demonstrations. This representation is used to generate new planning domains during inference and serves as an orchestrator for low-level VLA policies, scaling up the number of actions that can be reproduced in a row. Our results show that GraSP-VLA is effective for modeling symbolic representations on the task of automatic planning domain generation from observations. In addition, results on real-world experiments show the potential of our Continuous Scene Graph representation to orchestrate low-level VLA policies in long-horizon tasks.