Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues

📄 arXiv: 2503.03474v1 📥 PDF

作者: Varsha Suresh, M. Hamza Mughal, Christian Theobalt, Vera Demberg

分类: cs.CL

发布日期: 2025-03-05


💡 一句话要点

提出融合手势信息的语言模型,提升口语对话建模中关键线索的预测精度。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 口语对话建模 手势识别 多模态融合 语言模型 VQ-VAE

📋 核心要点

  1. 口语对话中,手势等非语言线索对理解语篇结构至关重要,但现有语言模型对此利用不足。
  2. 论文提出一种将3D人体运动序列编码为手势token,并与文本嵌入对齐的方法,从而将手势信息融入语言模型。
  3. 实验表明,融合手势信息的语言模型在预测对话连接词、立场标记和量词等任务中,准确率得到提升。

📝 摘要(中文)

本文研究了在语言模型中联合建模手势(通过人体运动序列表示)和语言,是否能够提升口语对话建模能力。研究人员首先使用VQ-VAE将3D人体运动序列编码为离散的手势token。然后,通过特征对齐将这些手势token嵌入与文本嵌入对齐,映射到文本嵌入空间。为了评估手势对齐的语言模型在口语对话中的表现,构建了文本填充任务,针对三个关键的对话线索:对话连接词、立场标记和量词。实验结果表明,结合手势信息能够提高这三个任务中标记预测的准确性,突出了手势在口语对话建模中提供的互补信息。这项工作是利用非语言线索来推进语言模型中口语语言建模的初步尝试。

🔬 方法详解

问题定义:现有语言模型在口语对话建模中,往往忽略了非语言信息,例如手势。这些非语言信息在口语交流中扮演着重要角色,能够帮助听者理解语篇结构,例如话题转换等。因此,如何有效地将手势信息融入到语言模型中,提升口语对话建模能力,是本文要解决的问题。

核心思路:本文的核心思路是将3D人体运动序列表示的手势信息,通过VQ-VAE编码为离散的token,然后通过特征对齐的方式,将这些手势token嵌入到文本嵌入空间中。这样,语言模型就能够同时利用文本和手势信息进行建模,从而提升对口语对话的理解能力。

技术框架:整体框架包含以下几个主要模块:1) 手势编码器:使用VQ-VAE将3D人体运动序列编码为离散的手势token。VQ-VAE包含一个编码器、一个码本和一个解码器。编码器将运动序列映射到潜在空间,码本包含一组预定义的向量,每个向量代表一个手势token。编码器输出的向量与码本中最接近的向量进行匹配,得到对应的手势token。解码器则根据手势token重建运动序列。2) 特征对齐模块:将手势token嵌入与文本嵌入进行对齐,使其位于同一嵌入空间。具体来说,使用线性变换将手势token嵌入映射到文本嵌入空间,并通过最小化手势token嵌入和对应文本嵌入之间的距离来训练该线性变换。3) 语言模型:使用Transformer架构的语言模型,将文本嵌入和对齐后的手势token嵌入作为输入,进行口语对话建模。

关键创新:本文的关键创新在于提出了一种将连续的3D人体运动序列转换为离散的手势token,并将其与文本信息对齐的方法。这种方法能够有效地将非语言信息融入到语言模型中,从而提升口语对话建模能力。与现有方法相比,本文的方法能够更好地利用手势信息,并且具有较强的可扩展性。

关键设计:在VQ-VAE中,码本的大小是一个重要的参数,它决定了手势token的数量。实验中,作者选择了合适的码本大小,以平衡手势信息的表达能力和计算复杂度。在特征对齐模块中,作者使用了均方误差损失函数来最小化手势token嵌入和对应文本嵌入之间的距离。在语言模型中,作者使用了标准的Transformer架构,并对输入嵌入进行了归一化处理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,融合手势信息的语言模型在对话连接词、立场标记和量词的预测任务中,准确率均得到提升。例如,在对话连接词预测任务中,模型准确率提升了约3%。这表明手势信息能够为口语对话建模提供有价值的补充信息。

🎯 应用场景

该研究成果可应用于人机交互、智能助手、虚拟现实等领域。通过理解用户的手势,机器能够更准确地理解用户的意图,从而提供更自然、更有效的交互体验。例如,在虚拟会议中,系统可以根据参与者的手势自动调整视角或突出显示发言者。

📄 摘要(原文)

Research in linguistics shows that non-verbal cues, such as gestures, play a crucial role in spoken discourse. For example, speakers perform hand gestures to indicate topic shifts, helping listeners identify transitions in discourse. In this work, we investigate whether the joint modeling of gestures using human motion sequences and language can improve spoken discourse modeling in language models. To integrate gestures into language models, we first encode 3D human motion sequences into discrete gesture tokens using a VQ-VAE. These gesture token embeddings are then aligned with text embeddings through feature alignment, mapping them into the text embedding space. To evaluate the gesture-aligned language model on spoken discourse, we construct text infilling tasks targeting three key discourse cues grounded in linguistic research: discourse connectives, stance markers, and quantifiers. Results show that incorporating gestures enhances marker prediction accuracy across the three tasks, highlighting the complementary information that gestures can offer in modeling spoken discourse. We view this work as an initial step toward leveraging non-verbal cues to advance spoken language modeling in language models.