Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation

作者: Nikita Kachaev, Andrei Spiridonov, Andrey Gorodetsky, Kirill Muravyev, Nikita Oskolkov, Aditya Narendra, Vlad Shakhuro, Dmitry Makarov, Aleksandr I. Panov, Polina Fedotova, Alexey K. Kovalev

分类: cs.RO, cs.AI

发布日期: 2025-08-21

💡 一句话要点

提出Kitchen-R基准，用于联合评估移动操作中的任务规划和底层策略。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身AI 机器人 任务规划 底层控制 Isaac Sim 基准测试 移动操作 视觉-语言模型

📋 核心要点

现有基准要么侧重于高层语言指令跟随，假定完美的底层执行，要么侧重于底层机器人控制，依赖于简单指令，缺乏整体评估。
Kitchen-R通过构建一个模拟厨房环境，并提供复杂的语言指令，统一评估任务规划和底层控制，弥合了高层规划和底层控制之间的差距。
论文提供了基于视觉-语言模型的任务规划和基于扩散策略的底层控制的基线方法，并支持独立和集成评估，为后续研究奠定基础。

📝 摘要（中文）

本文提出了Kitchen-R，一个新的基准，旨在统一评估模拟厨房环境中的任务规划和底层控制。该基准基于Isaac Sim模拟器构建了一个数字孪生厨房，包含超过500条复杂的语言指令，并支持移动操作机器人。为了方便研究，作者提供了基准方法的实现，包括基于视觉-语言模型的任务规划策略和基于扩散策略的底层控制策略，以及轨迹收集系统。Kitchen-R提供了一个灵活的框架，支持三种评估模式：独立评估规划模块、独立评估控制策略，以及对整个系统的集成评估。该基准填补了具身AI研究中的一个关键空白，能够对语言引导的机器人代理进行更全面和真实的基准测试。

🔬 方法详解

问题定义：现有机器人和具身AI的基准测试存在脱节现象。高层任务规划基准通常假设底层控制是完美的，而底层控制基准则依赖于简单的单步指令。这种脱节使得无法全面评估集成系统，尤其是在任务规划和物理执行都至关重要的情况下。因此，需要一个能够同时评估高层规划和底层控制的统一基准。

核心思路：Kitchen-R的核心思路是构建一个复杂的、真实的模拟环境（厨房），并提供丰富的、具有挑战性的语言指令，要求机器人完成一系列任务。通过这种方式，可以同时评估机器人的任务规划能力和底层控制能力，从而更全面地了解机器人的性能。

技术框架：Kitchen-R的整体框架包括以下几个主要模块：1) 基于Isaac Sim的厨房环境模拟器；2) 包含500+复杂语言指令的任务集；3) 移动操作机器人模型；4) 基于视觉-语言模型的任务规划模块；5) 基于扩散策略的底层控制模块；6) 轨迹收集系统；7) 评估模块（支持独立评估规划、独立评估控制和集成评估）。

关键创新：Kitchen-R的关键创新在于其统一评估任务规划和底层控制的能力。它不像以往的基准那样只关注一方面，而是将两者结合起来，从而更真实地反映了机器人在实际应用中的性能。此外，Kitchen-R还提供了丰富的任务集和基线方法，方便研究人员进行比较和改进。

关键设计：在任务规划模块中，使用了视觉-语言模型来理解语言指令并生成任务计划。在底层控制模块中，使用了扩散策略来生成平滑、自然的机器人运动轨迹。轨迹收集系统用于收集高质量的训练数据，以提高控制策略的性能。评估模块则提供了多种评估指标，以全面评估机器人的性能。

🖼️ 关键图片

📊 实验亮点

论文提供了基于视觉-语言模型的任务规划和基于扩散策略的底层控制的基线方法，并在Kitchen-R基准上进行了初步实验。实验结果表明，该基准能够有效地评估机器人的任务规划和底层控制能力，并为后续研究提供了有价值的参考。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

Kitchen-R基准的潜在应用领域包括家庭服务机器人、自动化厨房、智能制造等。通过在该基准上进行研究，可以开发出更智能、更灵活的机器人，能够更好地理解人类指令并完成复杂任务。这将极大地提高机器人的实用性和应用范围，并推动机器人技术的发展。

📄 摘要（原文）

Benchmarks are crucial for evaluating progress in robotics and embodied AI. However, a significant gap exists between benchmarks designed for high-level language instruction following, which often assume perfect low-level execution, and those for low-level robot control, which rely on simple, one-step commands. This disconnect prevents a comprehensive evaluation of integrated systems where both task planning and physical execution are critical. To address this, we propose Kitchen-R, a novel benchmark that unifies the evaluation of task planning and low-level control within a simulated kitchen environment. Built as a digital twin using the Isaac Sim simulator and featuring more than 500 complex language instructions, Kitchen-R supports a mobile manipulator robot. We provide baseline methods for our benchmark, including a task-planning strategy based on a vision-language model and a low-level control policy based on diffusion policy. We also provide a trajectory collection system. Our benchmark offers a flexible framework for three evaluation modes: independent assessment of the planning module, independent assessment of the control policy, and, crucially, an integrated evaluation of the whole system. Kitchen-R bridges a key gap in embodied AI research, enabling more holistic and realistic benchmarking of language-guided robotic agents.

Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理