Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision

📄 arXiv: 2604.02812 📥 PDF

作者: Alessandro Adami, Tommaso Tubaldo, Marco Todescato, Ruggero Carli, Pietro Falco

分类: cs.RO

发布日期: 2026-04-06


💡 一句话要点

利用合成神经符号监督,从视觉语言模型学习结构化机器人策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 机器人控制 结构化策略 行为树 神经符号 合成数据 领域随机化

📋 核心要点

  1. 现有端到端视觉运动策略缺乏透明性和可解释性,难以应用于安全关键型机器人任务。
  2. 提出一种神经符号方法,利用视觉语言模型生成可执行的行为树策略,实现高维学习与符号控制的桥接。
  3. 通过合成多模态数据集进行训练,实验表明学习到的结构化策略能够成功迁移到真实机器人系统。

📝 摘要(中文)

视觉语言模型(VLM)最近在将多模态观测映射到机器人行为方面表现出强大的能力。然而,目前大多数方法依赖于端到端的视觉运动策略,这些策略仍然不透明且难以分析,限制了它们在安全关键型机器人应用中的使用。相比之下,经典的机器人系统通常依赖于结构化的策略表示,这些表示提供了解释性、模块化和反应式执行。这项工作研究了如何专门化基础模型,以生成基于多模态感知的结构化机器人策略,从而桥接高维学习和符号控制。我们提出了一种神经符号方法,其中VLM从视觉观测、自然语言指令和结构化系统规范中合成可执行的行为树策略。为了实现无需手动注释的可扩展监督,我们引入了一个自动化管道,该管道生成一个合成的多模态数据集,其中包含领域随机化的场景,并配有由基础模型生成的指令-策略示例。在两个机器人机械臂上的真实世界实验表明,完全从合成监督中学习的结构化策略可以成功地转移到物理系统。结果表明,基础模型可以被调整为生成可解释和结构化的机器人策略,为多模态机器人决策提供了一种替代不透明端到端方法。

🔬 方法详解

问题定义:现有基于视觉语言模型的机器人控制方法主要采用端到端的视觉运动策略,这些策略如同黑盒,缺乏可解释性,难以调试和验证,限制了其在安全攸关场景下的应用。传统机器人系统采用的结构化策略虽然具有可解释性,但难以直接从高维视觉输入中学习。

核心思路:本论文的核心思路是利用视觉语言模型(VLM)生成结构化的机器人策略,具体而言,将VLM作为策略生成器,输入视觉观测、自然语言指令和系统规范,输出可执行的行为树(Behavior Tree)策略。这种方法结合了VLM的感知能力和行为树的结构化表达能力,从而实现可解释、可验证的机器人控制。

技术框架:该方法包含以下几个主要模块:1) 合成数据生成管道:自动生成包含领域随机化场景和指令-策略对的多模态数据集。2) 视觉语言模型:用于将视觉观测和自然语言指令映射到行为树策略。3) 行为树执行器:用于执行生成的行为树策略。整体流程是,首先利用合成数据训练VLM,然后将训练好的VLM部署到真实机器人系统,根据视觉输入和指令生成行为树策略,最后由行为树执行器执行策略。

关键创新:该方法最重要的创新点在于利用VLM生成结构化的机器人策略,并提出了一种自动化的合成数据生成管道,从而避免了手动标注的成本。与传统的端到端方法相比,该方法生成的策略具有可解释性和可验证性,更容易进行调试和优化。与传统的基于规则的机器人控制方法相比,该方法能够从视觉输入中自动学习策略,无需人工设计规则。

关键设计:合成数据生成管道的关键设计在于领域随机化,通过随机改变场景的光照、纹理、物体位置等参数,增加数据的多样性,从而提高模型的泛化能力。VLM采用Transformer架构,输入包括视觉特征和文本特征,输出是行为树的结构化表示。损失函数包括策略预测损失和行为预测损失,用于约束VLM的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,完全从合成数据中学习的结构化策略能够成功迁移到真实机器人系统。在两个机器人机械臂上的实验中,该方法能够完成各种操作任务,例如抓取、放置、组装等。与端到端方法相比,该方法生成的策略具有更高的成功率和更强的鲁棒性。具体性能数据未知。

🎯 应用场景

该研究成果可应用于各种机器人任务,例如工业自动化、家庭服务机器人、医疗机器人等。通过利用视觉语言模型和结构化策略,可以实现更智能、更安全、更可靠的机器人控制。该方法在安全关键型应用中具有重要价值,例如自动驾驶、手术机器人等,因为其策略具有可解释性和可验证性。

📄 摘要(原文)

Vision-language models (VLMs) have recently demonstrated strong capabilities in mapping multimodal observations to robot behaviors. However, most current approaches rely on end-to-end visuomotor policies that remain opaque and difficult to analyze, limiting their use in safety-critical robotic applications. In contrast, classical robotic systems often rely on structured policy representations that provide interpretability, modularity, and reactive execution. This work investigates how foundation models can be specialized to generate structured robot policies grounded in multimodal perception, bridging high-dimensional learning and symbolic control. We propose a neuro-symbolic approach in which a VLM synthesizes executable Behavior Tree policies from visual observations, natural language instructions, and structured system specifications. To enable scalable supervision without manual annotation, we introduce an automated pipeline that generates a synthetic multimodal dataset of domain-randomized scenes paired with instruction-policy examples produced by a foundation model. Real-world experiments on two robotic manipulators show that structured policies learned entirely from synthetic supervision transfer successfully to physical systems. The results indicate that foundation models can be adapted to produce interpretable and structured robot policies, providing an alternative to opaque end-to-end approaches for multimodal robot decision making.