InteracTalker: Prompt-Based Human-Object Interaction with Co-Speech Gesture Generation

📄 arXiv: 2512.12664v1 📥 PDF

作者: Sreehari Rajan, Kunal Bhosikar, Charu Sharma

分类: cs.CV

发布日期: 2025-12-14


💡 一句话要点

InteracTalker:提出基于提示的人-物交互与协同语音手势生成框架

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人-物交互 协同语音手势生成 扩散模型 多模态融合 运动生成 提示学习 自适应融合

📋 核心要点

  1. 现有方法通常独立处理语音驱动的手势或物体交互,缺乏集成的数据集限制了其在实际场景中的应用。
  2. InteracTalker通过多阶段训练学习统一的运动、语音和提示嵌入,并利用广义运动适应模块实现独立训练和动态组合。
  3. 实验表明,InteracTalker在协同语音手势生成和物体交互合成方面均优于现有方法,生成更逼真的全身运动。

📝 摘要(中文)

本文提出InteracTalker,一个新颖的框架,旨在无缝集成基于提示的对象感知交互与协同语音手势生成。该框架通过多阶段训练过程学习统一的运动、语音和提示嵌入空间。为了支持该框架,作者构建了一个丰富的人-物交互数据集,通过使用详细的对象交互标注增强现有的文本到运动数据集。InteracTalker利用广义运动适应模块,该模块支持独立训练,适应相应的运动条件,并在推理过程中动态组合。为了解决异构条件信号之间的不平衡问题,作者提出了一种自适应融合策略,在扩散采样期间动态地重新加权条件信号。InteracTalker成功地统一了先前分离的任务,在协同语音手势生成和对象交互合成方面均优于现有方法,超越了专注于手势的扩散方法,从而产生高度逼真、对象感知的全身运动,并具有增强的真实感、灵活性和控制力。

🔬 方法详解

问题定义:现有方法在生成与语音和物理对象自然交互的逼真人体运动方面存在局限性。它们通常独立处理语音驱动的手势或物体交互,缺乏一个综合性的数据集来支持同时考虑语音和物体交互的运动生成。这限制了它们在需要自然人机交互的实际应用中的有效性。

核心思路:InteracTalker的核心思路是通过学习一个统一的嵌入空间,将语音、物体交互提示和人体运动联系起来。通过这种方式,模型可以理解语音内容,感知物体交互的上下文,并生成与之协调的自然人体运动。这种统一的表示使得模型能够更好地捕捉语音和物体交互对人体运动的影响。

技术框架:InteracTalker框架包含以下主要模块:1) 数据集构建:通过增强现有的文本到运动数据集,添加详细的物体交互标注,构建一个包含语音、物体交互和人体运动的多模态数据集。2) 多阶段训练:通过多阶段训练过程,学习统一的运动、语音和提示嵌入空间。3) 广义运动适应模块:该模块允许独立训练,适应不同的运动条件,并在推理过程中动态组合。4) 自适应融合策略:在扩散采样期间,动态地重新加权条件信号,解决异构条件信号之间的不平衡问题。

关键创新:InteracTalker的关键创新在于它能够将语音驱动的手势生成和物体交互合成这两个任务统一到一个框架中。通过学习统一的嵌入空间和使用自适应融合策略,InteracTalker能够生成与语音和物体交互协调的自然人体运动。这与现有方法只关注其中一个任务形成了鲜明对比。

关键设计:InteracTalker的关键设计包括:1) 使用扩散模型作为运动生成器。2) 设计广义运动适应模块,允许独立训练和动态组合。3) 提出自适应融合策略,动态地重新加权条件信号。4) 构建包含语音、物体交互和人体运动的多模态数据集。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InteracTalker在协同语音手势生成和对象交互合成方面均优于现有方法。实验结果表明,InteracTalker生成的运动更加逼真、自然,与语音和物体交互的协调性更好。具体而言,InteracTalker超越了专注于手势的扩散方法,在生成高度逼真、对象感知的全身运动方面取得了显著的提升,增强了真实感、灵活性和控制力。

🎯 应用场景

InteracTalker具有广泛的应用前景,例如虚拟现实、增强现实、游戏、机器人等领域。它可以用于创建更逼真、更自然的虚拟角色,提高人机交互的质量。例如,在虚拟现实游戏中,InteracTalker可以生成与玩家语音和动作相协调的虚拟角色的动作,从而增强游戏的沉浸感。在机器人领域,它可以用于生成与人类指令和环境交互相协调的机器人动作,从而提高机器人的智能化水平。

📄 摘要(原文)

Generating realistic human motions that naturally respond to both spoken language and physical objects is crucial for interactive digital experiences. Current methods, however, address speech-driven gestures or object interactions independently, limiting real-world applicability due to a lack of integrated, comprehensive datasets. To overcome this, we introduce InteracTalker, a novel framework that seamlessly integrates prompt-based object-aware interactions with co-speech gesture generation. We achieve this by employing a multi-stage training process to learn a unified motion, speech, and prompt embedding space. To support this, we curate a rich human-object interaction dataset, formed by augmenting an existing text-to-motion dataset with detailed object interaction annotations. Our framework utilizes a Generalized Motion Adaptation Module that enables independent training, adapting to the corresponding motion condition, which is then dynamically combined during inference. To address the imbalance between heterogeneous conditioning signals, we propose an adaptive fusion strategy, which dynamically reweights the conditioning signals during diffusion sampling. InteracTalker successfully unifies these previously separate tasks, outperforming prior methods in both co-speech gesture generation and object-interaction synthesis, outperforming gesture-focused diffusion methods, yielding highly realistic, object-aware full-body motions with enhanced realism, flexibility, and control.