Cross-Domain Demo-to-Code via Neurosymbolic Counterfactual Reasoning

📄 arXiv: 2603.18495v1 📥 PDF

作者: Jooyoung Kim, Wonje Choi, Younguk Song, Honguk Woo

分类: cs.AI

发布日期: 2026-03-19

备注: Accepted at CVPR 2026


💡 一句话要点

提出NeSyCR,通过神经符号反事实推理实现跨域Demo-to-Code

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人编程 跨域自适应 神经符号推理 反事实推理 视觉语言模型 机器人操作 代码生成

📋 核心要点

  1. 现有VLM在跨域机器人编程中,缺乏对程序因果关系的理解,难以适应演示与部署间的差异。
  2. NeSyCR通过神经符号反事实推理,将视频抽象为符号轨迹,并进行可验证的程序修订,实现跨域自适应。
  3. 实验表明,NeSyCR在模拟和真实操作任务中,任务成功率显著提升,超越了现有最佳基线。

📝 摘要(中文)

本文将视频指导的机器人编程形式化为跨域自适应问题,其中演示和部署之间的感知和物理差异导致程序不匹配。现有视觉语言模型(VLMs)缺乏程序理解能力,难以在领域转移下重构因果依赖关系并实现任务兼容的行为。为此,我们引入了NeSyCR,一个神经符号反事实推理框架,能够对任务程序进行可验证的自适应,从而可靠地合成代码策略。NeSyCR将视频演示抽象为符号轨迹,捕捉潜在的任务程序。给定部署观察,它推导出反事实状态,揭示跨域不兼容性。通过可验证的检查探索符号状态空间,NeSyCR提出程序修订,恢复与演示程序的兼容性。在模拟和真实操作任务中,NeSyCR的任务成功率比最强的基线Statler提高了31.14%,展示了强大的跨域自适应能力。

🔬 方法详解

问题定义:论文旨在解决视频指导的机器人编程中的跨域适应问题。现有方法,特别是基于视觉语言模型的方法,在演示环境和实际部署环境存在差异时,由于缺乏对程序因果关系的理解,导致性能显著下降。这些差异可能源于感知上的变化(例如光照、视角)或物理上的变化(例如机器人动力学、物体属性),从而导致程序执行失败。

核心思路:论文的核心思路是利用神经符号反事实推理来弥合演示环境和部署环境之间的差距。通过将视频演示抽象成符号轨迹,并结合反事实推理,系统能够识别并纠正由于领域差异导致的程序不兼容性。这种方法允许系统在部署环境中“假设”不同的状态和动作,并评估这些假设对任务成功的影响,从而找到最佳的程序修订方案。

技术框架:NeSyCR框架包含以下主要模块:1) 视频抽象模块:将视频演示转换为符号轨迹,捕捉任务的底层程序。2) 反事实状态推导模块:根据部署环境的观察,推导出反事实状态,揭示跨域不兼容性。3) 符号状态空间探索模块:通过可验证的检查,探索符号状态空间,寻找能够恢复与演示程序兼容性的程序修订方案。4) 代码策略合成模块:将修订后的符号轨迹转换为可执行的代码策略。

关键创新:NeSyCR的关键创新在于其神经符号反事实推理框架。与传统的基于视觉语言模型的方法不同,NeSyCR不仅关注视觉信息的处理,还关注程序逻辑的推理和验证。通过将神经方法与符号推理相结合,NeSyCR能够更有效地处理跨域适应问题,并生成更可靠的代码策略。此外,NeSyCR的可验证检查机制确保了程序修订的正确性,提高了任务的成功率。

关键设计:论文中涉及的关键设计包括:1) 符号轨迹的表示方法:如何有效地将视频演示抽象成符号轨迹,以便进行后续的推理和验证。2) 反事实状态的生成方法:如何根据部署环境的观察,生成有意义的反事实状态。3) 符号状态空间的探索策略:如何高效地探索符号状态空间,找到最佳的程序修订方案。4) 可验证检查的实现方法:如何设计可验证的检查机制,确保程序修订的正确性。具体的参数设置、损失函数、网络结构等技术细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NeSyCR在模拟和真实世界的操作任务中均取得了显著的性能提升。相较于最强的基线Statler,NeSyCR的任务成功率提高了31.14%,证明了其在跨域自适应方面的有效性。这一结果表明,神经符号反事实推理是一种很有前途的机器人编程方法,能够显著提高机器人的泛化能力和鲁棒性。

🎯 应用场景

该研究成果可应用于各种机器人自动化场景,尤其是在需要机器人适应不同环境和任务的柔性制造、物流仓储、家庭服务等领域。通过学习人类的演示,机器人可以快速掌握新的任务,并能够根据实际情况进行调整,提高生产效率和灵活性。未来,该技术有望实现更智能、更自主的机器人系统。

📄 摘要(原文)

Recent advances in Vision-Language Models (VLMs) have enabled video-instructed robotic programming, allowing agents to interpret video demonstrations and generate executable control code. We formulate video-instructed robotic programming as a cross-domain adaptation problem, where perceptual and physical differences between demonstration and deployment induce procedural mismatches. However, current VLMs lack the procedural understanding needed to reformulate causal dependencies and achieve task-compatible behavior under such domain shifts. We introduce NeSyCR, a neurosymbolic counterfactual reasoning framework that enables verifiable adaptation of task procedures, providing a reliable synthesis of code policies. NeSyCR abstracts video demonstrations into symbolic trajectories that capture the underlying task procedure. Given deployment observations, it derives counterfactual states that reveal cross-domain incompatibilities. By exploring the symbolic state space with verifiable checks, NeSyCR proposes procedural revisions that restore compatibility with the demonstrated procedure. NeSyCR achieves a 31.14% improvement in task success over the strongest baseline Statler, showing robust cross-domain adaptation across both simulated and real-world manipulation tasks.