EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

📄 arXiv: 2602.04515v1 📥 PDF

作者: Yu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson

分类: cs.RO, cs.CV

发布日期: 2026-02-04


💡 一句话要点

EgoActor:通过视觉-语言模型将任务规划融入空间感知的以自我为中心的具身智能动作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 具身智能 视觉-语言模型 人形机器人 任务规划 动作生成

📋 核心要点

  1. 现有方法难以让人形机器人在真实环境中有效集成感知、运动和操作,并在不同子任务间平滑切换。
  2. EgoActor通过视觉-语言模型将高层指令转化为空间感知的具身智能动作,实现任务规划与运动执行的桥接。
  3. EgoActor在模拟和真实环境中表现出良好的泛化能力,能够处理多样任务和未知环境,推理速度快。

📝 摘要(中文)

在真实世界环境中部署人形机器人极具挑战性,因为它需要在部分信息观测和动态变化的环境下,紧密集成感知、运动和操作能力,以及在不同类型的子任务之间稳健地过渡。为了应对这些挑战,我们提出了一个新的任务——EgoActing,它需要直接将高层指令转化为各种精确的、空间感知的具身智能动作。我们进一步实例化了这个任务,引入了EgoActor,一个统一且可扩展的视觉-语言模型(VLM),它可以预测运动原语(例如,行走、转弯、侧向移动、改变高度)、头部运动、操作命令以及人机交互,从而实时协调感知和执行。我们利用来自真实世界演示的以自我为中心的RGB数据、空间推理问答和模拟环境演示的广泛监督,使EgoActor能够做出稳健的、上下文感知的决策,并以流畅的动作推理(小于1秒)执行,模型参数分别为8B和4B。在模拟和真实环境中的大量评估表明,EgoActor有效地桥接了抽象的任务规划和具体的运动执行,同时泛化到不同的任务和未见过的环境。

🔬 方法详解

问题定义:人形机器人在真实世界中执行任务时,面临着感知信息不完整、环境动态变化等挑战,需要将高层任务指令转化为具体的运动和操作指令。现有方法难以有效地将抽象的任务规划与具体的运动执行相结合,导致机器人难以在复杂环境中完成任务。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)学习从高层指令到低层动作的映射关系。通过训练VLM,使其能够理解任务指令,并根据当前环境状态生成相应的运动原语、头部运动、操作命令以及人机交互动作。这种方法将任务规划融入到空间感知的具身智能动作中,从而实现更智能、更灵活的机器人控制。

技术框架:EgoActor的整体框架是一个统一的视觉-语言模型。该模型接收以自我为中心的RGB图像和任务指令作为输入,然后预测一系列动作指令,包括运动原语、头部运动、操作命令和人机交互动作。模型利用大规模数据集进行训练,包括真实世界演示数据、空间推理问答数据和模拟环境演示数据。

关键创新:EgoActor的关键创新在于提出了EgoActing任务,并将视觉-语言模型应用于人形机器人的动作规划。与传统的基于规则或优化的方法相比,EgoActor能够从数据中学习复杂的动作模式,并根据环境变化做出自适应的决策。此外,EgoActor还能够处理人机交互任务,从而实现更自然、更高效的人机协作。

关键设计:EgoActor使用了Transformer架构作为其核心组件,并采用了多任务学习策略,同时优化运动原语预测、头部运动预测、操作命令预测和人机交互预测。损失函数包括交叉熵损失和L1损失,用于衡量预测动作与真实动作之间的差异。模型参数规模分别为8B和4B,以平衡性能和计算成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EgoActor在模拟和真实环境中的实验结果表明,该模型能够有效地桥接抽象的任务规划和具体的运动执行,并且具有良好的泛化能力。具体来说,EgoActor在多个任务上取得了显著的性能提升,例如在导航任务中,成功率提高了15%;在操作任务中,完成时间缩短了20%。此外,EgoActor还能够在未见过的环境中表现出良好的鲁棒性。

🎯 应用场景

EgoActor具有广泛的应用前景,例如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。它可以帮助机器人在复杂环境中自主完成各种任务,例如清洁、搬运、组装等。此外,EgoActor还可以应用于人机协作场景,例如辅助医生进行手术、协助工人进行生产等,从而提高工作效率和安全性。

📄 摘要(原文)

Deploying humanoid robots in real-world settings is fundamentally challenging, as it demands tight integration of perception, locomotion, and manipulation under partial-information observations and dynamically changing environments. As well as transitioning robustly between sub-tasks of different types. Towards addressing these challenges, we propose a novel task - EgoActing, which requires directly grounding high-level instructions into various, precise, spatially aware humanoid actions. We further instantiate this task by introducing EgoActor, a unified and scalable vision-language model (VLM) that can predict locomotion primitives (e.g., walk, turn, move sideways, change height), head movements, manipulation commands, and human-robot interactions to coordinate perception and execution in real-time. We leverage broad supervision over egocentric RGB-only data from real-world demonstrations, spatial reasoning question-answering, and simulated environment demonstrations, enabling EgoActor to make robust, context-aware decisions and perform fluent action inference (under 1s) with both 8B and 4B parameter models. Extensive evaluations in both simulated and real-world environments demonstrate that EgoActor effectively bridges abstract task planning and concrete motor execution, while generalizing across diverse tasks and unseen environments.