PolySLGen: Online Multimodal Speaking-Listening Reaction Generation in Polyadic Interaction

📄 arXiv: 2604.08125v1 📥 PDF

作者: Zhi-Yi Lin, Thomas Markhorst, Jouh Yeong Chew, Xucong Zhang

分类: cs.CV

发布日期: 2026-04-09


💡 一句话要点

提出PolySLGen,用于多人交互中在线多模态听说反应生成

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态反应生成 群体交互 社交机器人 姿态融合 社交线索编码 人机交互 在线生成

📋 核心要点

  1. 现有方法在多人交互场景下的多模态反应生成方面存在局限性,无法捕捉复杂的社交动态。
  2. PolySLGen通过姿态融合模块和社交线索编码器,有效建模群体交互,生成更自然的反应。
  3. 实验证明PolySLGen在多项指标上优于现有方法,提高了反应的真实感和连贯性。

📝 摘要(中文)

本文提出PolySLGen,一个用于多人交互中在线多模态听说反应生成的框架,旨在实现更自然的人机群组交互。现有方法主要局限于单模态或仅限于说话反应的双人交互,无法满足真实社交场景的需求,并且忽略了非语言线索和多人交互的复杂动态性。PolySLGen能够根据所有参与者的历史对话和动作,为目标参与者生成未来的说话或倾听反应,包括语音、身体动作和说话状态得分。为了有效建模群体交互,论文提出了一个姿态融合模块和一个社交线索编码器,联合聚合来自群体的动作和社交信号。实验结果表明,PolySLGen能够生成在上下文上适当且在时间上连贯的多模态反应,在动作质量、动作-语音对齐、说话状态预测和人类感知真实感方面优于多个基线方法。

🔬 方法详解

问题定义:论文旨在解决多人交互场景下,现有方法无法生成自然、连贯的多模态听说反应的问题。现有方法主要集中在双人交互或仅生成说话反应,忽略了倾听反应以及群体交互中重要的非语言线索和社交动态,导致生成的反应缺乏真实感和上下文关联性。

核心思路:论文的核心思路是利用姿态融合模块和社交线索编码器,从群体交互中提取关键的动作和社交信号,并将其融入到多模态反应生成过程中。通过这种方式,模型能够更好地理解上下文,生成更符合场景和参与者状态的反应。

技术框架:PolySLGen框架包含以下主要模块:1) 输入模块:接收所有参与者的历史对话和动作数据;2) 姿态融合模块:融合所有参与者的姿态信息,提取群体动作特征;3) 社交线索编码器:编码群体交互中的社交信号,例如注视方向、身体朝向等;4) 多模态反应生成器:根据融合的姿态特征和社交线索,生成目标参与者的说话或倾听反应,包括语音、身体动作和说话状态得分;5) 输出模块:输出生成的多模态反应。整个框架以在线方式运行,能够实时生成反应。

关键创新:论文的关键创新在于提出了姿态融合模块和社交线索编码器,能够有效建模群体交互中的复杂动态。姿态融合模块能够捕捉群体动作的整体模式,而社交线索编码器则能够提取关键的社交信号,例如注意力焦点和社交关系。这些信息对于生成自然、连贯的反应至关重要。与现有方法相比,PolySLGen能够更好地理解上下文,生成更符合场景和参与者状态的反应。

关键设计:论文中,姿态融合模块可能采用了注意力机制或图神经网络等方法,以有效融合不同参与者的姿态信息。社交线索编码器可能使用了循环神经网络或Transformer等模型,以捕捉社交信号的时序依赖关系。损失函数可能包括动作质量损失、动作-语音对齐损失和说话状态预测损失,以确保生成的多模态反应在各个方面都具有高质量。具体的网络结构和参数设置在论文中应该有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PolySLGen在动作质量、动作-语音对齐、说话状态预测和人类感知真实感方面均优于多个基线方法。具体而言,PolySLGen在动作质量方面取得了显著提升,生成的动作更加自然流畅。在动作-语音对齐方面,PolySLGen能够更好地将语音和动作同步,提高了反应的真实感。人类评估结果也表明,PolySLGen生成的反应更符合人类的预期,更具有吸引力。

🎯 应用场景

PolySLGen可应用于虚拟会议、社交机器人、游戏AI等领域,提升人机交互的自然性和真实感。例如,在虚拟会议中,PolySLGen可以使虚拟角色根据参与者的发言和动作,生成更自然的反应,从而提高会议的参与度和效率。在社交机器人中,PolySLGen可以使机器人更好地理解人类的情感和意图,并生成更恰当的反应,从而建立更紧密的人机关系。未来,该技术有望应用于更广泛的社交场景,促进人与AI的和谐共处。

📄 摘要(原文)

Human-like multimodal reaction generation is essential for natural group interactions between humans and embodied AI. However, existing approaches are limited to single-modality or speaking-only responses in dyadic interactions, making them unsuitable for realistic social scenarios. Many also overlook nonverbal cues and complex dynamics of polyadic interactions, both critical for engagement and conversational coherence. In this work, we present PolySLGen, an online framework for Polyadic multimodal Speaking and Listening reaction Generation. Given past conversation and motion from all participants, PolySLGen generates a future speaking or listening reaction for a target participant, including speech, body motion, and speaking state score. To model group interactions effectively, we propose a pose fusion module and a social cue encoder that jointly aggregate motion and social signals from the group. Extensive experiments, along with quantitative and qualitative evaluations, show that PolySLGen produces contextually appropriate and temporally coherent multi-modal reactions, outperforming several adapted and state-of-the-art baselines in motion quality, motion-speech alignment, speaking state prediction, and human-perceived realism.