Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control
作者: Shunlei Li, Longsen Gao, Jin Wang, Chang Che, Xi Xiao, Jiuwen Cao, Yingbai Hu, Hamid Reza Karimi
分类: cs.RO, cs.AI
发布日期: 2025-08-07
备注: Journal under review
💡 一句话要点
提出GF-VLA框架,通过信息论图融合视觉-语言-动作模型,实现双臂机器人策略推理与控制。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 双臂机器人 策略推理 视觉语言动作模型 信息论 场景图
📋 核心要点
- 现有方法依赖于低级轨迹模仿,难以泛化到不同对象、布局和机械臂配置,是机器人从人类视频学习灵巧技能的挑战。
- GF-VLA框架通过提取信息论线索构建场景图,并融合语言条件Transformer,生成分层行为树和笛卡尔运动命令。
- 实验结果表明,该方法在双臂块组装任务中实现了高图准确率和子任务分割率,并展现了良好的抓取、放置和任务成功率。
📝 摘要(中文)
本文提出了一种名为Graph-Fused Vision-Language-Action (GF-VLA) 的框架,旨在使双臂机器人系统能够直接从RGB和深度人类演示中执行任务级推理和执行。该框架首先提取基于香农信息的线索,以识别具有最高任务相关性的手和对象,然后将这些线索编码为时间排序的场景图,以捕获手-对象和对象-对象交互。这些图与语言条件Transformer融合,生成分层行为树和可解释的笛卡尔运动命令。为了提高双手动手设置中的执行效率,进一步引入了一种交叉手选择策略,该策略无需显式几何推理即可推断出最佳夹具分配。在涉及符号形状构造和空间泛化的四个结构化双臂块组装任务上评估了GF-VLA。实验结果表明,信息论场景表示实现了超过95%的图准确率和93%的子任务分割率,支持LLM规划器生成可靠且人类可读的任务策略。当由双臂机器人执行时,这些策略在堆叠、字母构建和几何重构场景中产生了94%的抓取成功率、89%的放置准确率和90%的总体任务成功率,证明了在各种空间和语义变化中的强大泛化性和鲁棒性。
🔬 方法详解
问题定义:现有机器人学习灵巧技能的方法主要依赖于低级轨迹模仿,这种方法难以泛化到不同的物体类型、空间布局以及机械臂配置。因此,如何让机器人能够从人类演示视频中学习到任务级别的策略,并具备良好的泛化能力,是一个亟待解决的问题。
核心思路:本文的核心思路是利用信息论来提取视频中与任务最相关的视觉信息,并将其编码成场景图。然后,将这些场景图与语言条件Transformer融合,生成可解释的分层行为树和笛卡尔运动命令。通过这种方式,机器人可以理解任务的语义信息,并根据环境的变化进行自适应调整。
技术框架:GF-VLA框架主要包含以下几个模块:1) 基于香农信息的线索提取模块,用于识别视频中与任务最相关的手和物体;2) 场景图构建模块,用于将提取的线索编码成时间排序的场景图,以捕获手-物体和物体-物体之间的交互;3) 语言条件Transformer,用于将场景图与语言指令融合,生成分层行为树和笛卡尔运动命令;4) 交叉手选择策略,用于在双手动手设置中推断出最佳的夹具分配。
关键创新:该论文最重要的技术创新点在于提出了基于信息论的场景图表示方法。与传统的场景图表示方法相比,该方法能够更加有效地提取视频中与任务相关的视觉信息,并减少噪声的干扰。此外,该论文还提出了一种交叉手选择策略,该策略能够有效地提高双手动手设置中的执行效率。
关键设计:在信息论线索提取模块中,使用了香农信息熵来衡量每个物体和手的任务相关性。在场景图构建模块中,使用了时序关系来表示物体和手之间的交互。在语言条件Transformer中,使用了注意力机制来融合场景图和语言指令。交叉手选择策略基于强化学习,奖励函数的设计考虑了抓取成功率和执行效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GF-VLA框架在四个结构化双臂块组装任务上取得了显著的成果。信息论场景表示实现了超过95%的图准确率和93%的子任务分割率。在双臂机器人执行任务时,抓取成功率达到94%,放置准确率达到89%,总体任务成功率达到90%。这些结果表明,该方法具有很强的泛化性和鲁棒性。
🎯 应用场景
该研究成果可应用于各种需要双臂机器人协同操作的场景,例如:自动化装配、医疗手术、家庭服务等。通过学习人类的演示,机器人可以完成复杂的任务,提高生产效率和服务质量。未来,该技术有望进一步扩展到更复杂的环境和任务中,实现更高级别的自主控制。
📄 摘要(原文)
Teaching robots dexterous skills from human videos remains challenging due to the reliance on low-level trajectory imitation, which fails to generalize across object types, spatial layouts, and manipulator configurations. We propose Graph-Fused Vision-Language-Action (GF-VLA), a framework that enables dual-arm robotic systems to perform task-level reasoning and execution directly from RGB and Depth human demonstrations. GF-VLA first extracts Shannon-information-based cues to identify hands and objects with the highest task relevance, then encodes these cues into temporally ordered scene graphs that capture both hand-object and object-object interactions. These graphs are fused with a language-conditioned transformer that generates hierarchical behavior trees and interpretable Cartesian motion commands. To improve execution efficiency in bimanual settings, we further introduce a cross-hand selection policy that infers optimal gripper assignment without explicit geometric reasoning. We evaluate GF-VLA on four structured dual-arm block assembly tasks involving symbolic shape construction and spatial generalization. Experimental results show that the information-theoretic scene representation achieves over 95 percent graph accuracy and 93 percent subtask segmentation, supporting the LLM planner in generating reliable and human-readable task policies. When executed by the dual-arm robot, these policies yield 94 percent grasp success, 89 percent placement accuracy, and 90 percent overall task success across stacking, letter-building, and geometric reconfiguration scenarios, demonstrating strong generalization and robustness across diverse spatial and semantic variations.