Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

📄 arXiv: 2512.15340 📥 PDF

作者: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出TIMAR,用于建模交互式3D对话头部的因果turn级动态,提升头像和机器人的表现力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D头部动态生成 因果建模 多模态融合 自回归模型 人机交互

📋 核心要点

  1. 现有方法通常将说话和听讲视为独立过程,或依赖非因果的全序列建模,阻碍了turn之间的时间连贯性。
  2. TIMAR通过turn级交错掩码自回归,融合多模态信息并利用因果注意力累积对话历史,从而实现更自然的头部动态生成。
  3. 实验表明,TIMAR在DualTalk基准测试中显著降低了Fréchet距离和MSE,并在分布外数据上表现出良好的泛化能力。

📝 摘要(中文)

本文提出了一种用于3D对话头部生成的因果框架TIMAR(Turn-level Interleaved Masked AutoRegression),该框架将对话建模为交错的音频-视觉上下文。TIMAR在每个turn内融合多模态信息,并应用turn级因果注意力来累积对话历史。同时,一个轻量级的扩散头预测连续的3D头部动态,捕捉协调性和表现性变化。在DualTalk基准测试上的实验表明,TIMAR在测试集上将Fréchet距离和MSE降低了15-30%,并在分布外数据上取得了类似的增益。源代码已发布。

🔬 方法详解

问题定义:论文旨在解决交互式对话中3D头部动态生成的问题。现有方法要么将说话和听讲割裂,要么采用非因果建模,无法有效捕捉对话turn之间的依赖关系,导致生成的头部动作不自然、缺乏连贯性。

核心思路:论文的核心思路是将对话建模为一系列交错的音频-视觉上下文turn,并利用因果自回归的方式逐步生成头部动态。通过在每个turn内融合多模态信息,并利用turn级因果注意力机制,模型可以有效地学习和利用对话历史,从而生成更具连贯性和表现力的头部动作。

技术框架:TIMAR框架主要包含以下几个模块:1) 多模态特征提取器:用于提取音频和视觉特征;2) Turn级交错掩码自回归模块:用于融合每个turn内的多模态信息,并利用掩码机制进行自回归建模;3) Turn级因果注意力模块:用于累积对话历史信息,并捕捉turn之间的依赖关系;4) 扩散头:用于预测连续的3D头部动态。整个框架以因果的方式逐步生成头部动作,保证了时间上的连贯性。

关键创新:TIMAR的关键创新在于其turn级交错掩码自回归和turn级因果注意力机制。前者能够有效地融合每个turn内的多模态信息,后者能够捕捉turn之间的依赖关系,从而实现更自然的头部动态生成。与现有方法相比,TIMAR采用因果建模的方式,避免了信息泄露,保证了生成过程的合理性。

关键设计:在turn级交错掩码自回归模块中,论文采用了Transformer结构,并对音频和视觉特征进行交错掩码。在turn级因果注意力模块中,论文采用了标准的Transformer注意力机制,并对注意力权重进行因果约束。扩散头采用轻量级设计,以提高生成效率。损失函数包括MSE损失和Fréchet距离损失,用于衡量生成头部动态的准确性和自然度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TIMAR在DualTalk基准测试中显著优于现有方法,在测试集上将Fréchet距离和MSE降低了15-30%。此外,TIMAR在分布外数据上表现出良好的泛化能力,表明其具有较强的鲁棒性。这些结果验证了TIMAR框架的有效性和优越性。

🎯 应用场景

该研究成果可应用于构建更具表现力的虚拟化身和交互式机器人。例如,在虚拟会议、在线教育、游戏娱乐等领域,可以利用该技术生成更自然、更生动的头部动作,提升用户体验。此外,该技术还可以应用于人机交互领域,使机器人能够更好地理解人类的情感和意图,从而实现更自然的人机交互。

📄 摘要(原文)

Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code has been released atthis https URL.