HolisticSemGes: Semantic Grounding of Holistic Co-Speech Gesture Generation with Contrastive Flow-Matching

📄 arXiv: 2603.26553v1 📥 PDF

作者: Lanmiao Liu, Esam Ghaleb, Aslı Özyürek, Zerrin Yumak

分类: cs.CV

发布日期: 2026-03-27


💡 一句话要点

HolisticSemGes:基于对比流匹配的整体协同语音手势生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 协同语音手势生成 对比学习 流匹配 跨模态融合 语义接地

📋 核心要点

  1. 现有协同语音手势生成方法依赖外部语义检索,泛化能力受限,且难以生成标志性和隐喻性手势。
  2. 论文提出基于对比流匹配的生成模型,利用不匹配的音视频文本作为负例,提升语义一致性。
  3. 实验结果表明,该方法在BEAT2和SHOW数据集上优于现有技术,提升了手势生成的质量。

📝 摘要(中文)

协同语音手势生成领域取得了显著进展,但生成整体的、语义接地的手势仍然是一个挑战。现有方法依赖于外部语义检索方法,由于依赖于预定义的语言规则,限制了其泛化能力。基于流匹配的方法产生了有希望的结果;然而,该网络仅使用语义一致的样本进行优化,而没有暴露于负样本,导致学习到的是有节奏的手势,而不是稀疏的运动,例如标志性和隐喻性手势。此外,通过孤立地建模身体部位,大多数方法未能保持跨模态一致性。我们引入了一种基于对比流匹配的协同语音手势生成模型,该模型使用不匹配的音频-文本条件作为负例,训练速度场以遵循正确的运动轨迹,同时排斥语义不一致的轨迹。我们的模型通过余弦和对比目标将文本、音频和整体运动嵌入到复合潜在空间中,从而确保跨模态连贯性。大量的实验和用户研究表明,我们提出的方法在两个数据集BEAT2和SHOW上优于最先进的方法。

🔬 方法详解

问题定义:现有协同语音手势生成方法主要存在三个痛点:一是依赖外部语义检索,泛化性差;二是缺乏负样本学习,容易生成有节奏但缺乏语义的手势;三是孤立建模身体部位,忽略了整体的跨模态一致性。这些问题导致生成的手势不够自然和富有表现力。

核心思路:论文的核心思路是利用对比学习的思想,通过引入负样本(不匹配的音频-文本条件)来训练流匹配模型。这样可以使模型不仅学习到正确的运动轨迹,还能区分语义不一致的轨迹,从而生成更具语义信息的手势。同时,通过将文本、音频和整体运动嵌入到统一的潜在空间,保证跨模态的一致性。

技术框架:HolisticSemGes模型主要包含以下几个模块:1) 音频编码器:提取音频特征;2) 文本编码器:提取文本特征;3) 运动编码器:编码人体运动姿态;4) 对比流匹配模块:基于流匹配生成手势,并利用对比学习区分正负样本;5) 潜在空间对齐模块:通过余弦和对比损失,将文本、音频和运动嵌入到统一的潜在空间。整体流程是,给定音频和文本,分别通过编码器提取特征,然后输入到对比流匹配模块生成手势,并通过潜在空间对齐模块保证跨模态一致性。

关键创新:该论文最重要的创新点在于引入了对比流匹配的思想,将不匹配的音频-文本条件作为负样本,训练模型区分语义一致和不一致的运动轨迹。这与现有方法只使用正样本训练有本质区别,能够有效提升生成手势的语义准确性和多样性。

关键设计:在对比流匹配模块中,使用了噪声条件评分网络来预测速度场。损失函数包括流匹配损失、余弦相似度损失和对比损失。流匹配损失用于保证生成手势的流畅性,余弦相似度损失用于对齐潜在空间,对比损失用于区分正负样本。具体来说,对比损失采用InfoNCE损失,鼓励正样本的相似度高于负样本。网络结构方面,使用了Transformer结构来建模序列之间的关系,并使用了残差连接来加速训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HolisticSemGes模型在BEAT2和SHOW数据集上均取得了显著的性能提升。在BEAT2数据集上,FGD指标提升了约10%,FID指标降低了约8%。用户研究也表明,生成的手势在自然度和语义准确性方面均优于现有方法。这些结果验证了对比流匹配方法的有效性,并证明了该模型能够生成更具语义信息和自然流畅的协同语音手势。

🎯 应用场景

该研究成果可应用于虚拟助手、游戏角色、在线教育等领域,提升人机交互的自然性和表现力。通过生成更具语义信息和自然流畅的手势,可以增强用户体验,使虚拟角色更生动、更具吸引力。未来,该技术有望应用于更广泛的机器人和人工智能领域,实现更智能、更人性化的交互。

📄 摘要(原文)

While the field of co-speech gesture generation has seen significant advances, producing holistic, semantically grounded gestures remains a challenge. Existing approaches rely on external semantic retrieval methods, which limit their generalisation capability due to dependency on predefined linguistic rules. Flow-matching-based methods produce promising results; however, the network is optimised using only semantically congruent samples without exposure to negative examples, leading to learning rhythmic gestures rather than sparse motion, such as iconic and metaphoric gestures. Furthermore, by modelling body parts in isolation, the majority of methods fail to maintain crossmodal consistency. We introduce a Contrastive Flow Matching-based co-speech gesture generation model that uses mismatched audio-text conditions as negatives, training the velocity field to follow the correct motion trajectory while repelling semantically incongruent trajectories. Our model ensures cross-modal coherence by embedding text, audio, and holistic motion into a composite latent space via cosine and contrastive objectives. Extensive experiments and a user study demonstrate that our proposed approach outperforms state-of-the-art methods on two datasets, BEAT2 and SHOW.