Grounded Gesture Generation: Language, Motion, and Space
作者: Anna Deichler, Jim O'Regan, Teo Guichoux, David Johansson, Jonas Beskow
分类: cs.CV, cs.AI, cs.RO
发布日期: 2025-07-06
备注: Accepted as a non-archival paper at the CVPR 2025 Humanoid Agents Workshop. Project page: https://groundedgestures.github.io
💡 一句话要点
提出基于多模态数据集和物理引擎的具身手势生成框架,解决空间环境感知问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身手势生成 多模态学习 空间环境感知 人机交互 物理引擎 虚拟现实 动作生成
📋 核心要点
- 现有手势生成模型缺乏对空间环境的感知,难以生成符合语境的具身动作。
- 提出结合合成数据集和VR对话数据集的多模态框架,实现空间环境感知的手势生成。
- 通过物理引擎模拟和情境化评估,验证了框架在具身手势生成方面的有效性。
📝 摘要(中文)
近年来,人体动作生成技术发展迅速,但空间环境感知的手势生成问题在很大程度上被忽视。现有模型通常专注于描述性动作生成(如运动和物体交互)或与语义对齐的孤立的协同语音手势合成。然而,这些工作通常将运动和环境感知分开处理,限制了具身智能体的进步。为了解决这个问题,本文提出了一个用于具身手势生成的多模态数据集和框架,结合了两个关键资源:(1)一个空间环境感知的指示性手势合成数据集,以及(2)MM-Conv,一个基于VR的双人对话数据集。它们共同提供了超过7.7小时的同步运动、语音和3D场景信息,并标准化为HumanML3D格式。该框架进一步连接到基于物理的模拟器,从而实现合成数据生成和情境化评估。通过桥接手势建模和空间环境感知,本文为推进情境化手势生成和具身多模态交互的研究奠定了基础。
🔬 方法详解
问题定义:现有手势生成模型主要关注描述性动作或孤立的协同语音手势,忽略了手势与周围环境的交互,缺乏空间环境感知能力。这导致生成的动作不自然,难以应用于真实的具身智能体。
核心思路:核心在于将手势生成与空间环境感知相结合。通过构建包含空间信息的合成数据集和VR对话数据集,模型能够学习手势与环境之间的关系,从而生成更具情境化的动作。同时,利用物理引擎进行模拟和评估,确保生成的动作在物理上可行。
技术框架:整体框架包含数据收集、模型训练和情境化评估三个主要阶段。首先,利用合成数据生成器和VR设备收集多模态数据,包括运动、语音和3D场景信息。然后,使用这些数据训练手势生成模型,使其能够根据语音和环境信息生成手势。最后,通过物理引擎模拟和人工评估,验证生成手势的合理性和自然性。
关键创新:关键创新在于将手势生成与空间环境感知相结合,并提出了一个用于具身手势生成的多模态数据集和框架。与现有方法相比,该方法能够生成更具情境化和物理可行性的手势,更适用于真实的具身智能体。
关键设计:数据集采用HumanML3D格式进行标准化,方便研究人员使用。模型训练过程中,使用了多种损失函数,包括运动损失、语音损失和环境损失,以确保生成的手势在运动、语义和空间上都合理。物理引擎模拟使用了PyBullet等工具,用于验证生成手势的物理可行性。
🖼️ 关键图片
📊 实验亮点
论文构建了包含7.7小时同步运动、语音和3D场景信息的多模态数据集,并提出了一个基于物理引擎的具身手势生成框架。通过情境化评估,验证了该框架在生成空间环境感知手势方面的有效性,为后续研究奠定了基础。
🎯 应用场景
该研究成果可应用于虚拟助手、社交机器人、游戏角色等领域,提升人机交互的自然性和沉浸感。例如,虚拟助手可以根据用户的语音指令和周围环境,生成更自然的手势,从而更好地表达意图。在社交机器人中,该技术可以使其能够与人进行更自然的交流,增强用户的信任感和亲近感。
📄 摘要(原文)
Human motion generation has advanced rapidly in recent years, yet the critical problem of creating spatially grounded, context-aware gestures has been largely overlooked. Existing models typically specialize either in descriptive motion generation, such as locomotion and object interaction, or in isolated co-speech gesture synthesis aligned with utterance semantics. However, both lines of work often treat motion and environmental grounding separately, limiting advances toward embodied, communicative agents. To address this gap, our work introduces a multimodal dataset and framework for grounded gesture generation, combining two key resources: (1) a synthetic dataset of spatially grounded referential gestures, and (2) MM-Conv, a VR-based dataset capturing two-party dialogues. Together, they provide over 7.7 hours of synchronized motion, speech, and 3D scene information, standardized in the HumanML3D format. Our framework further connects to a physics-based simulator, enabling synthetic data generation and situated evaluation. By bridging gesture modeling and spatial grounding, our contribution establishes a foundation for advancing research in situated gesture generation and grounded multimodal interaction. Project page: https://groundedgestures.github.io/