Neuro-Symbolic Learning for Long-Horizon Task Planning Under Complex Logical Constraints
作者: Qiwei Du, Zitong Zhan, Shaoshu Su, Bowen Li, Yi Du, Zhipeng Zhao, Taimeng Fu, Sebastian Scherer, Jiaoyang Li, Chen Wang
分类: cs.RO, cs.AI
发布日期: 2026-06-05
💡 一句话要点
提出神经符号学习以解决复杂逻辑约束下的长时间任务规划问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 神经符号学习 任务规划 逻辑约束 长时间序列 双层优化 机器人技术 自主决策
📋 核心要点
- 现有的任务规划方法在处理复杂逻辑约束时效率低下,尤其是在长时间动作序列的推理中存在显著瓶颈。
- 本文提出了一种基于学习的双层优化框架,通过优化神经评分器和解决符号规划问题来提高规划效率。
- 实验结果显示,该方法在三个基准测试中实现了80.04%的失败率降低和57.14%的规划时间缩短,验证了其有效性。
📝 摘要(中文)
任务规划在面对复杂逻辑约束时,尤其是在长时间动作序列的推理中,常常遭遇效率瓶颈。近期的神经符号方法通过学习对象重要性评分来修剪与任务无关的对象,从而提高规划效率。然而,这些方法通常依赖于固定的离线监督,导致训练与测试之间的不匹配。为了解决这一挑战,本文将对象重要性学习形式化为一个基于学习的双层优化问题,提出了一种3R策略以稳定学习过程。实验结果表明,该方法在三个基准测试中表现出色,显著降低了失败率和规划时间。
🔬 方法详解
问题定义:本文旨在解决在复杂逻辑约束下,机器人进行长时间任务规划时的效率瓶颈问题。现有方法依赖于固定的离线监督,导致训练与实际部署时的搜索空间不匹配,从而影响规划性能。
核心思路:论文提出将对象重要性学习视为一个基于学习的双层优化问题,优化神经评分器的同时,在评分修剪的搜索空间中解决符号规划问题,以应对训练与测试之间的差异。
技术框架:整体框架分为两个层次:上层负责优化神经评分器,下层则在修剪后的搜索空间中进行符号规划。为稳定学习过程,采用了3R策略,包括并行的修复、重启和回滚机制,以提供可靠的反馈。
关键创新:最重要的创新在于将对象重要性学习与符号规划结合,通过双层优化框架解决了训练与测试阶段的匹配问题,显著提高了规划效率。
关键设计:在设计中,采用了特定的损失函数来优化评分器,并在下层规划中引入了3R策略,以确保在动态环境中能够适应并提供有效反馈。
🖼️ 关键图片
📊 实验亮点
实验结果显示,所提出的方法在三个基准测试中实现了80.04%的失败率降低和57.14%的规划时间缩短,展现出优于现有方法的卓越性能,验证了其在复杂任务规划中的有效性。
🎯 应用场景
该研究具有广泛的应用潜力,尤其是在机器人任务规划、自动驾驶、智能制造等领域。通过提高长时间任务规划的效率,能够显著提升机器人在复杂环境中的自主决策能力,推动智能系统的实际应用和发展。
📄 摘要(原文)
Task planning often suffers from severe efficiency bottlenecks when robots must reason over long-horizon action sequences under complex logical constraints, including object affordances, spatial relationships, and sequential action dependencies. Recent neuro-symbolic methods improve planning efficiency by learning object-importance scores to prune task-irrelevant objects, but they typically rely on fixed offline supervision generated from full search spaces. This creates a train-test mismatch: at deployment, the planner operates in pruned search spaces induced by the model's own imperfect predictions, leading to exposure bias and degraded planning performance. To address this challenge, we formulate object-importance learning for task planning as an imperative learning-based bilevel optimization problem. The upper level optimizes a neural scorer, while the lower level solves a symbolic planning problem in the score-pruned search space. To stabilize this learning process, we introduce a 3R strategy into the lower-level planning, using parallel Repair, Restart, and Rollback recovery to provide reliable and adaptive feedback for upper-level learning. Experiments on three challenging benchmarks demonstrate state-of-the-art performance, including an 80.04% reduction in failure rate and a 57.14% reduction in planning time. We further validate the framework on a quadruped-based mobile manipulator in simulation and the real world, demonstrating its potential for efficient and deployable neuro-symbolic task planning.