CleanUpBench: Embodied Sweeping and Grasping Benchmark

📄 arXiv: 2508.05543v1 📥 PDF

作者: Wenbo Li, Guanting Chen, Tao Zhao, Jiyao Wang, Tianxin Hu, Yuwen Liao, Weixiang Guo, Shenghai Yuan

分类: cs.RO

发布日期: 2025-08-07


💡 一句话要点

提出CleanUpBench,用于评估扫地和抓取双模式移动清洁机器人的具身智能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 移动机器人 清洁机器人 基准测试 扫地 抓取 NVIDIA Isaac Sim 仿真环境

📋 核心要点

  1. 现有具身智能基准测试主要关注复杂人形代理,与实际移动清洁机器人的应用场景存在较大差距。
  2. CleanUpBench旨在提供一个现实的室内清洁环境,评估具备扫地和抓取双模式能力的移动机器人。
  3. 该基准测试包含多种评估指标,并提供基于启发式策略和地图规划的基线代理,便于比较研究。

📝 摘要(中文)

具身人工智能基准测试推动了导航、操作和推理的发展,但大多数都针对复杂的人形代理或大规模模拟,这些模拟与现实世界的部署相去甚远。相比之下,具有扫地和抓取等双模式能力的移动清洁机器人正迅速成为现实且具有商业可行性的平台。然而,目前还没有基准能够系统地评估这些代理在结构化的多目标清洁任务中的表现,这揭示了学术研究与实际应用之间的关键差距。我们推出了CleanUpBench,这是一个可重现和可扩展的基准,用于评估现实室内清洁场景中的具身代理。CleanUpBench建立在NVIDIA Isaac Sim之上,模拟了一个配备扫地机构和六自由度机械臂的移动服务机器人,使其能够与异构物体进行交互。该基准包括手动设计的环境和一个程序生成的布局,以评估泛化能力,以及一个全面的评估套件,涵盖任务完成度、空间效率、运动质量和控制性能。为了支持比较研究,我们提供了基于启发式策略和基于地图的规划的基线代理。CleanUpBench弥合了低级技能评估和全场景测试之间的差距,为日常环境中的具身智能提供了一个可扩展的测试平台。

🔬 方法详解

问题定义:现有具身智能基准测试难以评估扫地和抓取双模式移动清洁机器人在现实场景中的性能。缺乏一个标准化的、可重现的测试平台,阻碍了相关算法的开发和比较。现有方法难以兼顾低级技能评估和全场景测试,无法有效评估机器人在复杂环境中的泛化能力。

核心思路:CleanUpBench的核心思路是构建一个基于NVIDIA Isaac Sim的模拟环境,模拟真实的室内清洁场景,并提供一套全面的评估指标,以评估移动清洁机器人的性能。通过提供手动设计的环境和程序生成的布局,评估机器人的泛化能力。同时,提供基线代理,方便研究人员进行比较研究。

技术框架:CleanUpBench的整体框架包括以下几个主要模块:1) 基于NVIDIA Isaac Sim的模拟环境,包含手动设计的环境和程序生成的布局;2) 移动服务机器人模型,配备扫地机构和六自由度机械臂;3) 任务定义模块,定义清洁任务的目标和约束;4) 评估模块,包含任务完成度、空间效率、运动质量和控制性能等评估指标;5) 基线代理,基于启发式策略和基于地图的规划。

关键创新:CleanUpBench的关键创新在于:1) 首次提出了针对扫地和抓取双模式移动清洁机器人的具身智能基准测试;2) 构建了基于NVIDIA Isaac Sim的现实室内清洁环境,并提供了手动设计的环境和程序生成的布局,以评估机器人的泛化能力;3) 提供了一套全面的评估指标,涵盖任务完成度、空间效率、运动质量和控制性能等方面。与现有方法的本质区别在于,CleanUpBench更关注实际应用场景,并提供了一个可重现和可扩展的测试平台。

关键设计:CleanUpBench的关键设计包括:1) 机器人模型的设计,需要平衡仿真精度和计算效率;2) 环境的设计,需要考虑环境的复杂度和多样性;3) 评估指标的设计,需要能够全面反映机器人的性能;4) 基线代理的设计,需要具有一定的代表性,方便研究人员进行比较研究。具体的参数设置、损失函数、网络结构等技术细节取决于具体的算法实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CleanUpBench提供了一套全面的评估指标,包括任务完成度、空间效率、运动质量和控制性能。论文提供了基于启发式策略和基于地图的规划的基线代理,为后续研究提供了参考。通过在手动设计的环境和程序生成的布局上进行测试,可以评估机器人的泛化能力。具体性能数据未知,但该基准测试为后续研究提供了一个标准化的评估平台。

🎯 应用场景

CleanUpBench可应用于移动清洁机器人的算法开发、性能评估和产品优化。该基准测试能够推动具身智能在家庭服务、商业清洁等领域的应用,加速清洁机器人的智能化升级,提高清洁效率和质量,降低人工成本,并为其他类型的移动服务机器人提供参考。

📄 摘要(原文)

Embodied AI benchmarks have advanced navigation, manipulation, and reasoning, but most target complex humanoid agents or large-scale simulations that are far from real-world deployment. In contrast, mobile cleaning robots with dual mode capabilities, such as sweeping and grasping, are rapidly emerging as realistic and commercially viable platforms. However, no benchmark currently exists that systematically evaluates these agents in structured, multi-target cleaning tasks, revealing a critical gap between academic research and real-world applications. We introduce CleanUpBench, a reproducible and extensible benchmark for evaluating embodied agents in realistic indoor cleaning scenarios. Built on NVIDIA Isaac Sim, CleanUpBench simulates a mobile service robot equipped with a sweeping mechanism and a six-degree-of-freedom robotic arm, enabling interaction with heterogeneous objects. The benchmark includes manually designed environments and one procedurally generated layout to assess generalization, along with a comprehensive evaluation suite covering task completion, spatial efficiency, motion quality, and control performance. To support comparative studies, we provide baseline agents based on heuristic strategies and map-based planning. CleanUpBench bridges the gap between low-level skill evaluation and full-scene testing, offering a scalable testbed for grounded, embodied intelligence in everyday settings.