Large Language Models for Virtual Human Gesture Selection

📄 arXiv: 2503.14408v1 📥 PDF

作者: Parisa Ghanad Torshizi, Laura B. Hensel, Ari Shapiro, Stacy C. Marsella

分类: cs.HC, cs.CL

发布日期: 2025-03-18

备注: 9 pages, 6 figures, Accepted at the AAMAS 2025 conference


💡 一句话要点

利用大型语言模型进行虚拟人手势选择,提升人机交互体验

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 虚拟人 手势生成 大型语言模型 人机交互 GPT-4

📋 核心要点

  1. 现有手势生成方法要么缺乏上下文理解,要么依赖手动设计,难以自动化且泛化性差。
  2. 利用大型语言模型的语义理解能力,提出一种自动选择有意义且上下文相关手势的方法。
  3. 通过实验评估不同提示策略的效果,并在虚拟代理系统中实现,验证了该方法的有效性。

📝 摘要(中文)

共语手势传达多种含义,在面对面的人际互动中起着重要作用。这些手势显著影响受众的参与度、记忆、理解以及对说话者的态度。同样,它们也影响人与具身虚拟代理之间的互动。因此,选择和动画化有意义的手势已成为这些代理设计的关键重点。然而,自动执行此手势选择过程面临着重大挑战。先前的姿势生成技术各不相同,从完全自动化的数据驱动方法(通常难以产生上下文相关的有意义的姿势)到更手动的方法(需要制作特定的姿势专业知识,耗时且缺乏通用性)。在本文中,我们利用大型语言模型的语义能力来开发一种手势选择方法,该方法可以建议有意义的、适当的共语手势。我们首先描述了如何将有关手势的信息编码到 GPT-4 中。然后,我们进行了一项研究,以评估替代提示方法在选择有意义的、上下文相关的手势以及将它们与共语话语适当对齐方面的能力。最后,我们详细说明并演示了如何在虚拟代理系统中实施此方法,从而自动选择和随后动画化所选手势,以增强人机交互。

🔬 方法详解

问题定义:现有虚拟人手势生成方法存在两个主要痛点。一是数据驱动的方法难以生成上下文相关的、有意义的手势,二是手动设计的方法需要专业知识,耗时且难以泛化到不同的场景和对话。因此,需要一种能够自动选择与语境匹配的、自然的共语手势的方法。

核心思路:本研究的核心思路是利用大型语言模型(LLM)强大的语义理解能力,将手势选择问题转化为一个基于上下文的文本生成问题。通过合适的提示工程,LLM可以根据给定的对话内容,预测并选择合适的共语手势。这种方法避免了传统方法中对大量手势数据的依赖,也减少了手动设计的复杂性。

技术框架:该方法主要包含以下几个阶段:1) 手势信息编码:将手势的描述信息(例如,手势类型、含义、适用场景等)编码到LLM中,作为其知识库的一部分。2) 提示工程:设计不同的提示策略,引导LLM根据对话内容选择合适的手势。提示策略可以包括对话上下文、说话人信息、目标受众等。3) 手势选择:LLM根据提示,生成候选手势列表,并根据置信度或其他指标选择最终的手势。4) 虚拟人动画:将选择的手势传递给虚拟人动画系统,驱动虚拟人做出相应的手势。

关键创新:该研究的关键创新在于将大型语言模型应用于虚拟人手势选择。与传统方法相比,该方法无需大量的手势数据,也无需手动设计复杂的规则,而是利用LLM的语义理解能力,自动生成与语境匹配的手势。这种方法具有更好的泛化性和可扩展性。

关键设计:研究中探索了不同的提示策略,例如,使用不同的提示词、调整提示的详细程度等。此外,还研究了如何将手势信息有效地编码到LLM中,例如,使用自然语言描述手势的含义和适用场景。具体的参数设置和网络结构取决于所使用的LLM,例如GPT-4。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过实验验证了基于大型语言模型的手势选择方法的有效性。实验结果表明,通过合适的提示策略,LLM可以生成与语境匹配的、自然的共语手势。此外,该方法在虚拟代理系统中的实现也证明了其可行性和实用性。具体的性能数据和对比基线在论文中进行了详细描述,但此处未提供。

🎯 应用场景

该研究成果可广泛应用于虚拟助手、在线教育、游戏、社交媒体等领域。通过为虚拟角色赋予更自然、更具表现力的手势,可以显著提升用户体验,增强人机交互的真实感和沉浸感。未来,该技术有望应用于更复杂的场景,例如,远程协作、虚拟现实等。

📄 摘要(原文)

Co-speech gestures convey a wide variety of meanings and play an important role in face-to-face human interactions. These gestures significantly influence the addressee's engagement, recall, comprehension, and attitudes toward the speaker. Similarly, they impact interactions between humans and embodied virtual agents. The process of selecting and animating meaningful gestures has thus become a key focus in the design of these agents. However, automating this gesture selection process poses a significant challenge. Prior gesture generation techniques have varied from fully automated, data-driven methods, which often struggle to produce contextually meaningful gestures, to more manual approaches that require crafting specific gesture expertise and are time-consuming and lack generalizability. In this paper, we leverage the semantic capabilities of Large Language Models to develop a gesture selection approach that suggests meaningful, appropriate co-speech gestures. We first describe how information on gestures is encoded into GPT-4. Then, we conduct a study to evaluate alternative prompting approaches for their ability to select meaningful, contextually relevant gestures and to align them appropriately with the co-speech utterance. Finally, we detail and demonstrate how this approach has been implemented within a virtual agent system, automating the selection and subsequent animation of the selected gestures for enhanced human-agent interactions.