Social Agent: Mastering Dyadic Nonverbal Behavior Generation via Conversational LLM Agents
作者: Zeyi Zhang, Yanju Zhou, Heyuan Yao, Tenglong Ao, Xiaohang Zhan, Libin Liu
分类: cs.GR, cs.CV
发布日期: 2025-10-06
备注: SIGGRAPH ASIA 2025 (Conference Track); Project page: https://pku-mocca.github.io/Social-Agent-Page/
💡 一句话要点
Social Agent:基于对话LLM智能体实现双人非语言行为生成
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 非语言行为生成 双人交互 大型语言模型 扩散模型 智能体系统 人机交互 对话生成
📋 核心要点
- 现有方法难以生成自然、协同的双人非语言行为,尤其是在动态对话场景中。
- 利用LLM驱动的智能体系统,指导对话流程并确定双方参与者的交互行为,实现动态反馈。
- 基于自回归扩散模型,从语音信号中生成协调的手势,用户研究表明交互质量显著提升。
📝 摘要(中文)
本文提出了一种名为Social Agent的新框架,用于合成双人对话中逼真且符合语境的协同非语言行为。该框架开发了一个由大型语言模型(LLM)驱动的智能体系统,以指导对话流程并确定双方参与者的适当交互行为。此外,本文还提出了一种基于自回归扩散模型的双人手势生成模型,该模型从语音信号中合成协调的动作。智能体系统的输出被转化为手势生成器的高级指导,从而在行为和运动层面产生逼真的运动。此外,智能体系统定期检查对话者的动作并推断他们的意图,形成一个连续的反馈循环,从而实现双方参与者之间动态和响应式的交互。用户研究和定量评估表明,该模型显著提高了双人交互的质量,产生了自然、同步的非语言行为。
🔬 方法详解
问题定义:现有方法在生成双人对话场景下自然且协同的非语言行为方面存在挑战。尤其是在动态对话中,如何使生成的行为与对话内容和对方的行为保持一致是一个难题。现有的方法往往难以捕捉到这种细微的交互关系,导致生成的行为显得不自然或不协调。
核心思路:本文的核心思路是利用大型语言模型(LLM)作为智能体,来指导对话流程并决定参与者的交互行为。通过LLM的强大理解和生成能力,可以更好地捕捉对话的上下文信息,并生成更符合语境的非语言行为。同时,引入反馈机制,使智能体能够根据对方的行为动态调整自身行为,从而实现更自然的交互。
技术框架:Social Agent框架主要包含两个核心模块:基于LLM的智能体系统和双人手势生成模型。智能体系统负责管理对话流程,并为每个参与者生成高级行为指导。这些指导信息被传递给手势生成模型,该模型基于自回归扩散模型,从语音信号中生成协调的手势。智能体系统还会定期检查对话者的动作,并根据观察到的行为调整后续的指导,形成一个闭环反馈系统。
关键创新:该方法最重要的创新点在于将LLM引入到双人非语言行为生成中,并构建了一个智能体系统来管理对话流程和生成行为指导。这种方法能够更好地捕捉对话的上下文信息,并生成更符合语境的非语言行为。此外,闭环反馈机制也使得生成的行为能够动态地适应对方的行为,从而实现更自然的交互。
关键设计:在智能体系统中,LLM被用作对话管理器,负责生成对话文本和行为指导。行为指导包括诸如“点头”、“微笑”等高级指令。手势生成模型采用自回归扩散模型,该模型能够从语音信号中生成高质量的手势动画。损失函数的设计旨在鼓励生成的手势与行为指导保持一致,并与对方的手势保持协调。具体的参数设置和网络结构细节在论文中有详细描述,但具体数值未知。
🖼️ 关键图片
📊 实验亮点
论文通过用户研究和定量评估验证了Social Agent框架的有效性。结果表明,该模型能够显著提高双人交互的质量,生成更自然、更同步的非语言行为。具体的性能数据和对比基线在论文中给出,但具体数值未知。用户主观评价也显示,生成的行为更具表现力,更符合对话语境。
🎯 应用场景
Social Agent框架可应用于虚拟会议、在线教育、游戏角色动画、虚拟助手等领域。通过生成更自然、更具表现力的非语言行为,可以显著提升用户体验,增强人机交互的真实感和沉浸感。未来,该技术有望应用于更广泛的人工智能应用场景,例如社交机器人、情感计算等。
📄 摘要(原文)
We present Social Agent, a novel framework for synthesizing realistic and contextually appropriate co-speech nonverbal behaviors in dyadic conversations. In this framework, we develop an agentic system driven by a Large Language Model (LLM) to direct the conversation flow and determine appropriate interactive behaviors for both participants. Additionally, we propose a novel dual-person gesture generation model based on an auto-regressive diffusion model, which synthesizes coordinated motions from speech signals. The output of the agentic system is translated into high-level guidance for the gesture generator, resulting in realistic movement at both the behavioral and motion levels. Furthermore, the agentic system periodically examines the movements of interlocutors and infers their intentions, forming a continuous feedback loop that enables dynamic and responsive interactions between the two participants. User studies and quantitative evaluations show that our model significantly improves the quality of dyadic interactions, producing natural, synchronized nonverbal behaviors.