RoboTidy : A 3D Gaussian Splatting Household Tidying Benchmark for Embodied Navigation and Action

📄 arXiv: 2511.14161v2 📥 PDF

作者: Xiaoquan Sun, Ruijian Zhang, Kang Pang, Bingchen Miao, Yuxiang Tan, Zhen Yang, Ming Li, Jiayu Chen

分类: cs.RO, cs.CV

发布日期: 2025-11-18 (更新: 2025-11-19)


💡 一句话要点

RoboTidy:用于具身导航与操作的3D高斯溅射家庭整理基准

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)

关键词: 具身智能 家庭整理 3D高斯溅射 视觉语言导航 视觉语言动作

📋 核心要点

  1. 现有家庭整理基准缺乏用户偏好建模,不支持移动性,泛化性差,难以全面评估集成的语言到动作能力。
  2. RoboTidy通过构建基于3D高斯溅射的逼真家庭场景,并提供高质量的演示轨迹,支持VLA和VLN任务的训练和评估。
  3. RoboTidy在真实世界中进行了部署,验证了其在物体整理方面的有效性,并为语言引导机器人提供了一个全面的评估平台。

📝 摘要(中文)

本文提出RoboTidy,一个统一的语言引导家庭整理基准,支持视觉-语言-动作(VLA)和视觉-语言-导航(VLN)的训练和评估。RoboTidy提供500个逼真的3D高斯溅射(3DGS)家庭场景(覆盖500个物体和容器),包含碰撞信息,将整理任务形式化为“动作(物体,容器)”列表,并提供6.4k高质量的操作演示轨迹和1.5k导航轨迹,以支持小样本和大规模训练。此外,还在现实世界中部署RoboTidy进行物体整理,建立了一个端到端的家庭整理基准。RoboTidy提供了一个可扩展的平台,并通过对语言引导机器人的整体和现实评估,弥合了具身人工智能中的一个关键差距。

🔬 方法详解

问题定义:现有家庭整理基准存在三个主要痛点:一是缺乏用户偏好建模,导致任务目标不够明确;二是不支持移动性,限制了机器人的操作范围;三是泛化性较差,难以适应真实世界的复杂环境。这些问题使得现有基准难以全面评估语言引导机器人的能力。

核心思路:RoboTidy的核心思路是构建一个更逼真、更全面的家庭整理环境,并提供高质量的演示数据,从而支持VLA和VLN任务的训练和评估。通过使用3D高斯溅射技术,RoboTidy能够生成具有高度真实感的3D场景,并模拟物体之间的碰撞关系。此外,RoboTidy还提供了大量的操作和导航轨迹,以支持机器人的学习和训练。

技术框架:RoboTidy的整体框架包括以下几个主要模块:1) 3D场景生成模块,用于生成逼真的3D家庭场景;2) 任务定义模块,用于将家庭整理任务形式化为“动作(物体,容器)”列表;3) 数据生成模块,用于生成高质量的操作和导航轨迹;4) 评估模块,用于评估机器人在RoboTidy环境中的性能。

关键创新:RoboTidy最重要的技术创新点在于其使用了3D高斯溅射技术来生成3D场景。与传统的基于网格或体素的3D场景表示方法相比,3D高斯溅射能够更高效地表示复杂的几何形状和纹理信息,从而生成更逼真的3D场景。此外,RoboTidy还提供了大量的操作和导航轨迹,这为机器人的学习和训练提供了有力的支持。

关键设计:RoboTidy的关键设计包括:1) 使用500个不同的家庭场景,以提高模型的泛化能力;2) 提供6.4k操作轨迹和1.5k导航轨迹,以支持小样本和大规模训练;3) 在真实世界中部署RoboTidy,以验证其在实际应用中的有效性。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明,属于未知信息。

📊 实验亮点

RoboTidy提供了一个包含500个3DGS家庭场景的基准数据集,并提供了6.4k操作轨迹和1.5k导航轨迹。通过在真实世界中部署RoboTidy,验证了其在物体整理方面的有效性。具体的性能数据和对比基线在摘要中未提及,属于未知信息。

🎯 应用场景

RoboTidy的研究成果可应用于家庭服务机器人、智能家居系统等领域。通过RoboTidy,可以训练出能够理解人类指令并完成家庭整理任务的机器人,从而提高人们的生活质量。此外,RoboTidy还可以作为具身人工智能研究的平台,促进相关技术的发展。

📄 摘要(原文)

Household tidying is an important application area, yet current benchmarks neither model user preferences nor support mobility, and they generalize poorly, making it hard to comprehensively assess integrated language-to-action capabilities. To address this, we propose RoboTidy, a unified benchmark for language-guided household tidying that supports Vision-Language-Action (VLA) and Vision-Language-Navigation (VLN) training and evaluation. RoboTidy provides 500 photorealistic 3D Gaussian Splatting (3DGS) household scenes (covering 500 objects and containers) with collisions, formulates tidying as an "Action (Object, Container)" list, and supplies 6.4k high-quality manipulation demonstration trajectories and 1.5k naviagtion trajectories to support both few-shot and large-scale training. We also deploy RoboTidy in the real world for object tidying, establishing an end-to-end benchmark for household tidying. RoboTidy offers a scalable platform and bridges a key gap in embodied AI by enabling holistic and realistic evaluation of language-guided robots.