Visually-grounded Humanoid Agents

📄 arXiv: 2604.08509v1 📥 PDF

作者: Hang Ye, Xiaoxuan Ma, Fan Lu, Wayne Wu, Kwan-Yee Lin, Yizhou Wang

分类: cs.CV, cs.RO

发布日期: 2026-04-09

备注: Project page: https://alvinyh.github.io/VGHuman/


💡 一句话要点

提出基于视觉的人形智能体框架,实现3D场景中自主行为

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人形智能体 具身智能 视觉感知 自主导航 3D场景重建

📋 核心要点

  1. 现有数字人系统依赖特权状态或脚本控制,难以扩展到新环境,限制了其应用。
  2. 提出双层框架,世界层重建3D场景,智能体层赋予数字人感知、推理和行动能力。
  3. 实验表明,该智能体在复杂环境中表现出鲁棒的自主行为,任务成功率更高。

📝 摘要(中文)

本文提出了一种基于视觉的人形智能体框架,旨在使数字人在新场景中仅通过视觉观察和指定目标就能自主行动。该框架通过耦合的双层(世界-智能体)范式,在多个层面上模拟人类:观察、感知、推理和行为。世界层通过遮挡感知管道从真实视频中重建语义丰富的3D高斯场景,并容纳基于高斯的可动画人形化身。智能体层将这些化身转化为自主人形智能体,赋予它们第一人称RGB-D感知能力,并使其能够进行精确的、具身的空间感知规划和迭代推理,然后在低级别执行全身动作,从而驱动其在场景中的行为。此外,本文还引入了一个基准来评估在各种重建环境中人形智能体与场景的交互。实验表明,该智能体实现了稳健的自主行为,与消融实验和最先进的规划方法相比,具有更高的任务成功率和更少的碰撞。这项工作实现了主动数字人生成,并推进了以人为中心的具身人工智能。

🔬 方法详解

问题定义:现有数字人生成系统主要依赖于预定义的脚本或特权状态信息进行控制,这限制了它们在新环境中的适应性和泛化能力。痛点在于缺乏自主性,无法仅通过视觉信息驱动数字人在复杂场景中完成特定任务。

核心思路:本文的核心思路是将数字人置于一个可交互的3D环境中,并赋予其视觉感知、空间推理和自主行动的能力。通过模拟人类的感知和决策过程,使数字人能够像真实人类一样在新环境中自主地探索、规划和执行任务。

技术框架:该框架包含两个主要层:世界层和智能体层。世界层负责从真实世界的视频中重建语义丰富的3D高斯场景,并支持可动画的人形化身。智能体层则将这些化身转化为自主智能体,赋予其第一人称RGB-D感知能力,并进行空间感知规划和迭代推理。智能体通过低级别的全身动作来驱动其在场景中的行为。

关键创新:最重要的创新在于将视觉感知与具身规划相结合,使数字人能够仅通过视觉信息在新环境中进行自主导航和交互。此外,使用高斯表示进行场景重建和人形化身建模,提高了渲染质量和动画控制的灵活性。

关键设计:世界层使用遮挡感知的管道重建3D高斯场景,保证场景的完整性。智能体层采用RGB-D感知,提供丰富的环境信息。规划模块使用空间感知和迭代推理,提高规划的准确性和鲁棒性。低级别动作控制模块负责将规划结果转化为全身动作,驱动数字人在场景中行动。

📊 实验亮点

实验结果表明,该方法在各种重建环境中实现了稳健的自主行为,与消融实验和最先进的规划方法相比,具有更高的任务成功率和更少的碰撞。具体而言,该方法在导航任务中的成功率比基线方法提高了显著百分比(具体数值未知),并且碰撞次数也明显减少。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、电影制作、教育培训等领域。例如,可以利用该技术创建逼真的虚拟环境,让用户与自主行动的数字人进行互动。此外,该技术还可以用于机器人导航、自动驾驶等领域,提高机器人在复杂环境中的适应性和自主性。

📄 摘要(原文)

Digital human generation has been studied for decades and supports a wide range of real-world applications. However, most existing systems are passively animated, relying on privileged state or scripted control, which limits scalability to novel environments. We instead ask: how can digital humans actively behave using only visual observations and specified goals in novel scenes? Achieving this would enable populating any 3D environments with digital humans at scale that exhibit spontaneous, natural, goal-directed behaviors. To this end, we introduce Visually-grounded Humanoid Agents, a coupled two-layer (world-agent) paradigm that replicates humans at multiple levels: they look, perceive, reason, and behave like real people in real-world 3D scenes. The World Layer reconstructs semantically rich 3D Gaussian scenes from real-world videos via an occlusion-aware pipeline and accommodates animatable Gaussian-based human avatars. The Agent Layer transforms these avatars into autonomous humanoid agents, equipping them with first-person RGB-D perception and enabling them to perform accurate, embodied planning with spatial awareness and iterative reasoning, which is then executed at the low level as full-body actions to drive their behaviors in the scene. We further introduce a benchmark to evaluate humanoid-scene interaction in diverse reconstructed environments. Experiments show our agents achieve robust autonomous behavior, yielding higher task success rates and fewer collisions than ablations and state-of-the-art planning methods. This work enables active digital human population and advances human-centric embodied AI. Data, code, and models will be open-sourced.