Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation

📄 arXiv: 2508.15663v1 📥 PDF

作者: Nikita Kachaev, Andrei Spiridonov, Andrey Gorodetsky, Kirill Muravyev, Nikita Oskolkov, Aditya Narendra, Vlad Shakhuro, Dmitry Makarov, Aleksandr I. Panov, Polina Fedotova, Alexey K. Kovalev

分类: cs.RO, cs.AI

发布日期: 2025-08-21


💡 一句话要点

提出Kitchen-R基准,用于联合评估移动操作中的任务规划和底层策略。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身AI 机器人 任务规划 底层控制 Isaac Sim 基准测试 移动操作 视觉-语言模型

📋 核心要点

  1. 现有基准要么侧重于高层语言指令跟随,假定完美的底层执行,要么侧重于底层机器人控制,依赖于简单指令,缺乏整体评估。
  2. Kitchen-R通过构建一个模拟厨房环境,并提供复杂的语言指令,统一评估任务规划和底层控制,弥合了高层规划和底层控制之间的差距。
  3. 论文提供了基于视觉-语言模型的任务规划和基于扩散策略的底层控制的基线方法,并支持独立和集成评估,为后续研究奠定基础。

📝 摘要(中文)

本文提出了Kitchen-R,一个新的基准,旨在统一评估模拟厨房环境中的任务规划和底层控制。该基准基于Isaac Sim模拟器构建了一个数字孪生厨房,包含超过500条复杂的语言指令,并支持移动操作机器人。为了方便研究,作者提供了基准方法的实现,包括基于视觉-语言模型的任务规划策略和基于扩散策略的底层控制策略,以及轨迹收集系统。Kitchen-R提供了一个灵活的框架,支持三种评估模式:独立评估规划模块、独立评估控制策略,以及对整个系统的集成评估。该基准填补了具身AI研究中的一个关键空白,能够对语言引导的机器人代理进行更全面和真实的基准测试。

🔬 方法详解

问题定义:现有机器人和具身AI的基准测试存在脱节现象。高层任务规划基准通常假设底层控制是完美的,而底层控制基准则依赖于简单的单步指令。这种脱节使得无法全面评估集成系统,尤其是在任务规划和物理执行都至关重要的情况下。因此,需要一个能够同时评估高层规划和底层控制的统一基准。

核心思路:Kitchen-R的核心思路是构建一个复杂的、真实的模拟环境(厨房),并提供丰富的、具有挑战性的语言指令,要求机器人完成一系列任务。通过这种方式,可以同时评估机器人的任务规划能力和底层控制能力,从而更全面地了解机器人的性能。

技术框架:Kitchen-R的整体框架包括以下几个主要模块:1) 基于Isaac Sim的厨房环境模拟器;2) 包含500+复杂语言指令的任务集;3) 移动操作机器人模型;4) 基于视觉-语言模型的任务规划模块;5) 基于扩散策略的底层控制模块;6) 轨迹收集系统;7) 评估模块(支持独立评估规划、独立评估控制和集成评估)。

关键创新:Kitchen-R的关键创新在于其统一评估任务规划和底层控制的能力。它不像以往的基准那样只关注一方面,而是将两者结合起来,从而更真实地反映了机器人在实际应用中的性能。此外,Kitchen-R还提供了丰富的任务集和基线方法,方便研究人员进行比较和改进。

关键设计:在任务规划模块中,使用了视觉-语言模型来理解语言指令并生成任务计划。在底层控制模块中,使用了扩散策略来生成平滑、自然的机器人运动轨迹。轨迹收集系统用于收集高质量的训练数据,以提高控制策略的性能。评估模块则提供了多种评估指标,以全面评估机器人的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提供了基于视觉-语言模型的任务规划和基于扩散策略的底层控制的基线方法,并在Kitchen-R基准上进行了初步实验。实验结果表明,该基准能够有效地评估机器人的任务规划和底层控制能力,并为后续研究提供了有价值的参考。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

Kitchen-R基准的潜在应用领域包括家庭服务机器人、自动化厨房、智能制造等。通过在该基准上进行研究,可以开发出更智能、更灵活的机器人,能够更好地理解人类指令并完成复杂任务。这将极大地提高机器人的实用性和应用范围,并推动机器人技术的发展。

📄 摘要(原文)

Benchmarks are crucial for evaluating progress in robotics and embodied AI. However, a significant gap exists between benchmarks designed for high-level language instruction following, which often assume perfect low-level execution, and those for low-level robot control, which rely on simple, one-step commands. This disconnect prevents a comprehensive evaluation of integrated systems where both task planning and physical execution are critical. To address this, we propose Kitchen-R, a novel benchmark that unifies the evaluation of task planning and low-level control within a simulated kitchen environment. Built as a digital twin using the Isaac Sim simulator and featuring more than 500 complex language instructions, Kitchen-R supports a mobile manipulator robot. We provide baseline methods for our benchmark, including a task-planning strategy based on a vision-language model and a low-level control policy based on diffusion policy. We also provide a trajectory collection system. Our benchmark offers a flexible framework for three evaluation modes: independent assessment of the planning module, independent assessment of the control policy, and, crucially, an integrated evaluation of the whole system. Kitchen-R bridges a key gap in embodied AI research, enabling more holistic and realistic benchmarking of language-guided robotic agents.