Social Agent: Mastering Dyadic Nonverbal Behavior Generation via Conversational LLM Agents

📄 arXiv: 2510.04637v1 📥 PDF

作者: Zeyi Zhang, Yanju Zhou, Heyuan Yao, Tenglong Ao, Xiaohang Zhan, Libin Liu

分类: cs.GR, cs.CV

发布日期: 2025-10-06

备注: SIGGRAPH ASIA 2025 (Conference Track); Project page: https://pku-mocca.github.io/Social-Agent-Page/

DOI: 10.1145/3757377.3763879


💡 一句话要点

Social Agent:基于对话LLM智能体实现双人非语言行为生成

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 非语言行为生成 双人对话 大型语言模型 扩散模型 人机交互

📋 核心要点

  1. 现有方法难以生成自然且具有上下文感知能力的双人对话非语言行为,缺乏对交互动态的建模。
  2. Social Agent利用LLM驱动的智能体系统,结合自回归扩散模型,生成逼真且协同的双人非语言行为。
  3. 实验结果表明,该模型显著提升了双人互动质量,生成了自然且同步的非语言行为,优于现有方法。

📝 摘要(中文)

本文提出了一种名为Social Agent的新框架,用于合成双人对话中逼真且符合语境的协同非语言行为。该框架开发了一个由大型语言模型(LLM)驱动的智能体系统,以指导对话流程并确定双方参与者的适当互动行为。此外,本文还提出了一种基于自回归扩散模型的双人手势生成模型,该模型从语音信号中合成协调的动作。智能体系统的输出被转化为手势生成器的高级指导,从而在行为和运动层面产生逼真的运动。智能体系统还会定期检查对话者的动作并推断他们的意图,形成一个持续的反馈循环,从而实现双方参与者之间动态和响应式的互动。用户研究和定量评估表明,该模型显著提高了双人互动质量,产生了自然、同步的非语言行为。

🔬 方法详解

问题定义:现有方法在生成双人对话场景下的非语言行为时,难以保证行为的自然性、同步性和上下文相关性。尤其是在模拟真实对话的动态交互方面存在不足,无法根据对方的行为和意图做出实时调整。这导致生成的非语言行为显得僵硬和不真实。

核心思路:本文的核心思路是利用大型语言模型(LLM)作为对话的驱动者,模拟人类的对话过程,并根据对话内容和参与者的状态,生成相应的非语言行为。通过LLM的推理能力,可以更好地理解对话的上下文,并生成更具表现力和真实感的非语言行为。同时,引入反馈机制,使智能体能够根据对方的行为进行调整,从而实现动态的交互。

技术框架:Social Agent框架主要包含两个核心模块:基于LLM的智能体系统和双人手势生成模型。首先,LLM智能体系统负责管理对话流程,决定每个参与者的发言内容和高层行为意图。然后,双人手势生成模型接收LLM智能体的输出,并根据语音信号生成相应的非语言行为。该模型基于自回归扩散模型,能够生成协调的动作。此外,智能体系统会定期检查对话者的动作,并推断他们的意图,形成一个闭环反馈系统,从而实现动态交互。

关键创新:该论文的关键创新在于将大型语言模型(LLM)引入到双人非语言行为生成任务中,利用LLM的强大推理能力来驱动对话流程和指导非语言行为的生成。此外,提出的双人手势生成模型能够生成协调的动作,并结合反馈机制,实现了动态和响应式的交互。与现有方法相比,该方法能够生成更自然、同步和具有上下文相关性的非语言行为。

关键设计:在LLM智能体系统中,使用了特定的prompt工程来引导LLM生成符合要求的对话内容和行为意图。在双人手势生成模型中,使用了自回归扩散模型,并设计了特定的网络结构来捕捉语音信号和行为意图之间的关系。损失函数的设计也考虑了行为的自然性和同步性,例如,使用了对抗损失来提高生成行为的真实感,并使用了协同损失来保证双人行为的同步性。具体的参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

用户研究表明,Social Agent生成的双人非语言行为在自然性、同步性和上下文相关性方面均显著优于现有方法。定量评估结果也显示,该模型在多个指标上取得了显著提升,例如,在动作流畅度、行为一致性等方面均优于基线模型。具体的性能数据和对比结果在论文中有详细展示。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏、在线教育、人机交互等领域。例如,可以创建更具沉浸感和互动性的虚拟角色,提升在线教育的参与度和效果,改善人机交互的自然性和流畅性。未来,该技术有望应用于社交机器人、智能助手等领域,实现更自然和人性化的交互体验。

📄 摘要(原文)

We present Social Agent, a novel framework for synthesizing realistic and contextually appropriate co-speech nonverbal behaviors in dyadic conversations. In this framework, we develop an agentic system driven by a Large Language Model (LLM) to direct the conversation flow and determine appropriate interactive behaviors for both participants. Additionally, we propose a novel dual-person gesture generation model based on an auto-regressive diffusion model, which synthesizes coordinated motions from speech signals. The output of the agentic system is translated into high-level guidance for the gesture generator, resulting in realistic movement at both the behavioral and motion levels. Furthermore, the agentic system periodically examines the movements of interlocutors and infers their intentions, forming a continuous feedback loop that enables dynamic and responsive interactions between the two participants. User studies and quantitative evaluations show that our model significantly improves the quality of dyadic interactions, producing natural, synchronized nonverbal behaviors.