GDPO-Listener: Expressive Interactive Head Generation via Auto-Regressive Flow Matching and Group reward-Decoupled Policy Optimization
作者: Zhangyu Jin, Maksim Siniukov, Deuksin Kwon, Ashutosh Chaubey, Mohammad Soleymani
分类: cs.CV
发布日期: 2026-03-26
💡 一句话要点
GDPO-Listener:通过自回归流匹配和分组解耦策略优化实现富有表现力的交互式头部生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 头部运动生成 虚拟人 自回归流匹配 策略优化 语义控制
📋 核心要点
- 现有头部运动生成方法在听者运动中存在“回归平均”问题,导致表情僵化,无法生成复杂的非语言运动。
- GDPO-Listener通过自回归流匹配架构实现稳定学习,并利用分组奖励解耦策略优化(GDPO)激励高方差的表现力生成。
- 在Seamless Interaction和DualTalk数据集上的实验表明,该方法在长期运动学方差、视觉表现力和语义可控性方面优于现有方法。
📝 摘要(中文)
在虚拟人合成中,为二元交互生成逼真的3D头部运动是一个重要的挑战。虽然最近的方法在说话头部方面取得了令人印象深刻的结果,但它们经常在听者运动中遇到“回归平均”问题,导致面部表情僵化,并且缺乏复杂非语言运动的参数空间。本文提出了GDPO-Listener,这是一个新颖的框架,可以实现高度表现力的说话和听者运动生成。首先,我们引入了一种自回归流匹配架构,从而实现稳定的监督学习。其次,为了克服运动学上的静止,我们应用了分组奖励解耦策略优化(GDPO)。通过隔离不同FLAME参数组的奖励归一化,GDPO明确地激励了高方差的表现力生成。最后,我们实现了显式的语义文本控制,以实现可定制的响应。在Seamless Interaction和DualTalk数据集上的大量评估表明,与现有基线相比,在长期运动学方差、视觉表现力和语义可控性方面具有卓越的性能。
🔬 方法详解
问题定义:现有方法在生成听者头部运动时,容易出现“回归平均”现象,导致生成的面部表情缺乏变化,显得僵硬和不自然。同时,这些方法难以控制生成的头部运动,无法根据语义信息进行定制化的响应。因此,需要一种能够生成富有表现力且可控的听者头部运动的方法。
核心思路:GDPO-Listener的核心思路是结合自回归流匹配和分组奖励解耦策略优化,从而实现稳定学习和高方差的运动生成。自回归流匹配用于学习头部运动的分布,而GDPO则用于鼓励生成更多样化的运动,避免“回归平均”问题。此外,该方法还引入了语义文本控制,从而可以根据文本信息生成定制化的头部运动。
技术框架:GDPO-Listener的整体框架包括以下几个主要模块:1) 自回归流匹配模块:用于学习头部运动的分布,并生成初始的头部运动序列。2) 分组奖励解耦策略优化(GDPO)模块:用于优化头部运动序列,使其更加富有表现力。3) 语义文本控制模块:用于根据文本信息调整头部运动序列,实现定制化的响应。整个流程首先使用自回归流匹配生成初始运动,然后通过GDPO进行优化,最后根据语义文本进行调整。
关键创新:GDPO-Listener的关键创新在于以下几个方面:1) 提出了自回归流匹配架构,用于稳定地学习头部运动的分布。2) 引入了分组奖励解耦策略优化(GDPO),用于鼓励生成高方差的表现力运动。3) 实现了显式的语义文本控制,从而可以根据文本信息生成定制化的头部运动。与现有方法相比,GDPO-Listener能够生成更加自然、富有表现力且可控的听者头部运动。
关键设计:在自回归流匹配模块中,使用了Flow Matching技术来学习头部运动的分布。在GDPO模块中,将FLAME参数分为不同的组,并对每个组的奖励进行独立的归一化,从而鼓励每个组生成更多样化的运动。在语义文本控制模块中,使用了Transformer网络来学习文本信息和头部运动之间的关系。损失函数包括流匹配损失、GDPO奖励和语义一致性损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GDPO-Listener在Seamless Interaction和DualTalk数据集上取得了显著的性能提升。与现有基线相比,该方法在长期运动学方差、视觉表现力和语义可控性方面均表现出卓越的性能。具体而言,GDPO-Listener能够生成更加多样化、更加自然且与语义信息更加一致的听者头部运动。
🎯 应用场景
GDPO-Listener可应用于虚拟人交互、游戏、电影等领域,提升虚拟角色的真实感和表现力。该技术能够生成更自然、更富有表现力的听者头部运动,从而增强人机交互的沉浸感和趣味性。未来,该技术有望应用于远程会议、虚拟助手等场景,提升沟通效率和用户体验。
📄 摘要(原文)
Generating realistic 3D head motion for dyadic interactions is a significant challenge in virtual human synthesis. While recent methods achieve impressive results with speaking heads, they frequently suffer from the `Regression-to-the-Mean' problem in listener motions, collapsing into static faces, and lack the parameter space for complex nonverbal motions. In this paper, we propose GDPO-Listener, a novel framework that achieves highly expressive speaking and listening motion generation. First, we introduce an Auto-Regressive Flow Matching architecture enabling stable supervised learning. Second, to overcome kinematic stillness, we apply the Group reward-Decoupled Policy Optimization (GDPO). By isolating reward normalization across distinct FLAME parameter groups, GDPO explicitly incentivizes high variance expressive generations. Finally, we enable explicit semantic text control for customizable responses. Extensive evaluations across the Seamless Interaction and DualTalk datasets demonstrate superior performance compared to existing baselines on long-term kinematic variance, visual expressivity and semantic controllability.