Body of Her: A Preliminary Study on End-to-End Humanoid Agent

📄 arXiv: 2408.02879v1 📥 PDF

作者: Tenglong Ao

分类: cs.CV

发布日期: 2024-08-06

备注: Technical Report v1; Project Page: https://aubrey-ao.github.io/BodyOfHer


💡 一句话要点

提出端到端交互式人形代理模型,实现实时双向沟通和通用物体操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人形代理 端到端学习 多模态融合 大型语言模型 人机交互

📋 核心要点

  1. 现有交互式人形代理系统通常只考虑部分要素,与逼真的人形代理存在差距,缺乏全面性。
  2. 提出一种端到端的多模态模型,通过集成音频和视觉信息,扩展预训练大型语言模型,实现逼真的人形代理行为。
  3. 该模型具备实时双向沟通能力,并能进行通用物体操作,优于以往系统,为后续研究奠定基础。

📝 摘要(中文)

本文提出了一种实时、双向、交互式的端到端网络,用于建模逼真的人形代理行为,包括语音、用于说话、回应、空闲和操作的全身动作。该系统是一个多模态模型,集成了音频和视觉输入,并扩展自预训练的大型语言模型(LLM)。作者收集了约20万小时的音频、约13万小时的视频数据和约2万个对齐样本来构建模型。最终模型展示了以往系统难以实现的能力,例如通用物体操作。这项工作对该领域的端到端方法进行了初步探索,旨在激发进一步的扩展研究。

🔬 方法详解

问题定义:现有的人形代理系统通常只关注语音、面部表情或手势等部分模态,缺乏对全身动作和交互行为的综合建模。此外,实时性和双向沟通能力也存在不足,难以实现逼真的人机交互体验。因此,如何构建一个能够模拟人类完整行为,并具备实时交互能力的人形代理是本文要解决的问题。

核心思路:本文的核心思路是利用端到端的学习方法,直接从多模态输入(音频和视频)学习人形代理的行为模式。通过扩展预训练的大型语言模型,赋予模型更强的语言理解和生成能力,从而实现更自然的对话和交互。同时,通过大量数据的训练,使模型能够学习到复杂的全身动作和物体操作技能。

技术框架:该系统采用端到端的架构,主要包含以下模块:1) 多模态输入编码器:用于提取音频和视频特征;2) 大型语言模型(LLM):作为核心的决策和生成模块,负责生成对话内容和动作指令;3) 动作生成器:根据LLM的输出,生成全身动作和物体操作指令;4) 渲染引擎:将生成的动作指令转化为可视化的3D人形代理行为。整个流程实现了从感知输入到行为输出的直接映射。

关键创新:该论文的关键创新在于提出了一个端到端的多模态人形代理模型,能够同时处理语音、视觉信息,并生成全身动作和物体操作。与以往方法相比,该方法无需手动设计复杂的规则和状态机,而是通过数据驱动的方式学习人形代理的行为模式,从而提高了模型的泛化能力和适应性。此外,该模型还具备实时双向沟通能力,能够主动发起对话和打断对方,从而实现更自然的交互体验。

关键设计:在数据方面,作者收集了大量的音频、视频和对齐样本,用于训练模型。在模型结构方面,作者选择了预训练的大型语言模型作为基础,并对其进行了扩展,使其能够处理多模态输入和生成动作指令。在损失函数方面,作者采用了多种损失函数,包括语言模型损失、动作预测损失和物体操作损失,以保证模型的各个模块能够协同工作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型通过端到端学习,实现了通用物体操作能力,这是以往系统难以达到的。虽然论文中没有给出具体的性能指标,但强调了模型在处理复杂交互场景时的优势。收集了20万小时音频、13万小时视频以及2万对齐样本,为模型训练提供了充足的数据支持。

🎯 应用场景

该研究成果可应用于虚拟助手、游戏角色、远程协作、教育培训等领域。通过构建逼真且具有交互能力的人形代理,可以提升用户体验,增强人机交互的自然性和效率。未来,随着技术的不断发展,人形代理有望在更多领域发挥重要作用,例如智能家居、医疗保健和工业自动化等。

📄 摘要(原文)

Interactive virtual humanoid agent is a crucial interface with the physical world. A relatively complete humanoid agent first needs to have face and body, then possess both verbal and non-verbal (such as eye contact, facial expression, lip motion, gesture, and manipulation) abilities, and finally, it is capable of real-time duplex communication, e.g., the ability to actively interrupt conversations. Most prior systems typically only consider a subset of these elements, leaving a gap from realistic humanoid agent. In this work, we propose a real-time, duplex, interactive end-to-end network capable of modeling realistic agent behaviors, including speech, full-body movements for talking, responding, idling, and manipulation. This system is a multimodal model integrating audio and visual inputs, extended from a pre-trained large language model (LLM). We collect approximately 200,000 hours of audio, around 130,000 hours of video data, and about 20,000 alignment samples to build the model. The final model demonstrates capabilities that are difficult to achieve in previous systems, such as generalized object manipulation. This work performs a preliminary exploration of the end-to-end approach in this field, aiming to inspire further research towards scaling up.