MM-Conv: A Multi-modal Conversational Dataset for Virtual Humans

📄 arXiv: 2410.00253v1 📥 PDF

作者: Anna Deichler, Jim O'Regan, Jonas Beskow

分类: cs.CV, cs.CL, cs.GR, cs.HC

发布日期: 2024-09-30


💡 一句话要点

提出MM-Conv多模态对话数据集,用于增强虚拟人协同姿势生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据集 虚拟人 协同姿势生成 VR AI2-THOR

📋 核心要点

  1. 现有协同姿势生成方法缺乏在复杂3D场景中,结合多模态上下文信息的能力,限制了虚拟人交互的真实性。
  2. MM-Conv数据集通过VR记录参与者在AI2-THOR环境中的对话,捕捉动作、语音、视线和场景图等多模态数据。
  3. 该数据集旨在为3D场景中的姿势生成模型提供丰富的训练数据,从而提升模型对上下文的理解和生成更自然的姿势。

📝 摘要(中文)

本文介绍了一个新颖的数据集MM-Conv,该数据集通过VR头显记录了参与者在物理模拟器(AI2-THOR)中的对话。我们的主要目标是通过在指示性环境中整合丰富的上下文信息,来扩展协同姿势生成领域。参与者参与了各种基于指示性交流任务的对话场景。该数据集提供了丰富的多模态记录,例如动作捕捉、语音、视线和场景图。这个全面的数据集旨在通过提供多样化和上下文丰富的数据,来增强对3D场景中姿势生成模型的理解和开发。

🔬 方法详解

问题定义:论文旨在解决虚拟人协同姿势生成中,缺乏高质量、多模态训练数据的问题。现有方法难以在复杂的3D场景中,充分利用语音、视线、场景上下文等信息,导致生成的姿势不够自然和真实。

核心思路:论文的核心思路是通过构建一个包含丰富多模态信息的对话数据集,为姿势生成模型提供更全面的训练信号。通过记录参与者在虚拟环境中的自然对话,捕捉动作、语音、视线和场景图等信息,从而使模型能够学习到更符合上下文语境的姿势。

技术框架:MM-Conv数据集的构建流程主要包括以下几个阶段:1) 设计基于指示性交流任务的对话场景;2) 使用VR头显记录参与者的对话过程,捕捉动作捕捉数据、语音数据、视线数据和场景图数据;3) 对采集到的数据进行清洗、对齐和标注,形成最终的多模态数据集。

关键创新:该论文的关键创新在于构建了一个包含动作捕捉、语音、视线和场景图等多模态信息的大规模对话数据集。该数据集专注于指示性交流任务,提供了丰富的上下文信息,有助于提升姿势生成模型在3D场景中的表现。

关键设计:数据集采集使用了AI2-THOR物理模拟器作为虚拟环境,保证了场景的真实性和可控性。VR头显用于捕捉参与者的动作和视线,麦克风用于录制语音。场景图则提供了场景中物体的位置、关系等信息。数据集的标注工作包括对语音进行转录,以及对动作进行语义标注。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MM-Conv数据集包含多种对话场景和丰富的多模态信息,为姿势生成模型提供了全面的训练数据。虽然论文没有提供具体的实验结果,但该数据集的发布将为相关研究提供重要的资源,并有望推动协同姿势生成领域的发展。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏、社交机器人等领域。通过利用MM-Conv数据集训练的姿势生成模型,可以创建更具表现力和交互性的虚拟人,提升用户在虚拟环境中的沉浸感和体验。未来,该数据集还可以用于研究人机交互、社交行为等领域。

📄 摘要(原文)

In this paper, we present a novel dataset captured using a VR headset to record conversations between participants within a physics simulator (AI2-THOR). Our primary objective is to extend the field of co-speech gesture generation by incorporating rich contextual information within referential settings. Participants engaged in various conversational scenarios, all based on referential communication tasks. The dataset provides a rich set of multimodal recordings such as motion capture, speech, gaze, and scene graphs. This comprehensive dataset aims to enhance the understanding and development of gesture generation models in 3D scenes by providing diverse and contextually rich data.