When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution
作者: Zilin Zhu, Longteng Guo, Yanghong Mei, Bowen Pang, Zongxun Zhang, Xingjian He, Ruyi Ji, Jing Liu
分类: cs.AI
发布日期: 2026-05-14
💡 一句话要点
提出LongAct基准与HoloMind智能体,用于评估和提升机器人长时程家庭任务执行能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长时程规划 具身智能 家庭服务机器人 视觉语言模型 分层规划
📋 核心要点
- 现有具身智能基准侧重短时程任务,忽略了长时程家庭任务所需的高级规划和持续推理能力。
- HoloMind智能体利用VLM驱动,结合DAG规划器、多模态空间记忆、情景记忆和全局评论器,提升长时程任务性能。
- 实验表明HoloMind能有效提升长时程任务性能,但整体任务成功率仍然较低,表明长时程规划仍是挑战。
📝 摘要(中文)
本文提出了LongAct,一个旨在评估长时程家庭任务中规划自主性的基准。与现有侧重短时程导航或操作且依赖固定任务类别的具身智能基准不同,LongAct通过自由形式指令指定任务,并抽象掉特定于embodiment的底层控制,从而隔离了指令理解、依赖管理、记忆维护和自适应规划等高层认知能力。此外,本文还提出了HoloMind,一个由VLM驱动的智能体,它包含基于DAG的长时程分层规划器、用于持久世界建模的多模态空间记忆、用于经验重用的情景记忆以及用于反思监督的全局评论器。使用GPT-5和Qwen3-VL模型的实验表明,HoloMind在提高长时程性能的同时,降低了对模型规模的依赖。然而,即使是最好的模型也仅实现了59%的目标完成率和16%的完整任务成功率,这突显了LongAct的难度以及具身智能体对更强大的长时程规划的需求。
🔬 方法详解
问题定义:现有具身智能基准主要关注短时程导航和操作任务,缺乏对长时程家庭任务中高级规划能力的有效评估。这些基准通常依赖于预定义的任务类别,难以应对自由形式指令带来的复杂性和不确定性。此外,现有方法往往将底层控制与高层认知能力耦合在一起,难以有效分离和评估规划层面的自主性。
核心思路:本文的核心思路是通过抽象掉embodiment-specific的底层控制,专注于评估智能体在长时程任务中的高层认知能力,如指令理解、依赖管理、记忆维护和自适应规划。同时,利用大型视觉语言模型(VLM)的强大能力,构建一个能够进行分层规划、持久世界建模和经验重用的智能体。
技术框架:HoloMind智能体的整体架构包含以下几个主要模块:1) DAG-based长时程分层规划器:用于将复杂任务分解为可执行的子任务,并管理任务之间的依赖关系。2) 多模态空间记忆:用于持久地建模和更新世界状态,包括视觉信息和语义信息。3) 情景记忆:用于存储和检索历史经验,以便在类似情境中进行经验重用。4) 全局评论器:用于对智能体的行为进行反思性监督,从而提高规划的质量和效率。
关键创新:LongAct基准的创新之处在于其对长时程家庭任务的关注,以及对高层认知能力的隔离评估。HoloMind智能体的创新之处在于其将VLM与DAG规划器、多模态空间记忆和情景记忆相结合,从而实现了更强大的长时程规划能力。与现有方法相比,HoloMind能够更好地理解自由形式指令,管理任务之间的依赖关系,并利用历史经验进行自适应规划。
关键设计:DAG规划器使用VLM生成子任务和依赖关系。多模态空间记忆融合视觉特征和语义信息,采用attention机制进行信息检索。情景记忆使用embedding相似度进行经验检索。全局评论器基于VLM对规划结果进行评估和反馈,指导智能体进行改进。具体参数设置和损失函数细节在论文附录中给出(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HoloMind智能体在LongAct基准上取得了显著的性能提升,目标完成率达到59%,完整任务成功率达到16%。与直接使用GPT-5和Qwen3-VL等大型模型相比,HoloMind在提高性能的同时,降低了对模型规模的依赖。然而,整体任务成功率仍然较低,表明长时程规划仍然是一个具有挑战性的问题。
🎯 应用场景
该研究成果可应用于家庭服务机器人、智能家居系统等领域,提升机器人自主完成复杂家务任务的能力。通过LongAct基准,可以促进长时程规划算法的研发,推动具身智能技术的发展,最终实现更智能、更可靠的家庭服务机器人,从而提高人们的生活质量。
📄 摘要(原文)
Long-horizon household tasks demand robust high-level planning and sustained reasoning capabilities, which are largely overlooked by existing embodied AI benchmarks that emphasize short-horizon navigation or manipulation and rely on fixed task categories. We introduce LongAct, a benchmark designed to evaluate planning-level autonomy in long-horizon household tasks specified through free-form instructions. By abstracting away embodiment-specific low-level control, LongAct isolates high-level cognitive capabilities such as instruction understanding, dependency management, memory maintenance, and adaptive planning. We further propose HoloMind, a VLM-driven agent with a DAG-based long-horizon hierarchical planner, a Multimodal Spatial Memory for persistent world modeling, an Episodic Memory for experience reuse, and a global Critic for reflective supervision. Experiments with GPT-5 and Qwen3-VL models show that HoloMind substantially improves long-horizon performance while reducing reliance on model scale. Even top models achieve only 59% goal completion and 16% full-task success, underscoring the difficulty of LongAct and the need for stronger long-horizon planning in embodied agents.