Giving Faces Their Feelings Back: Explicit Emotion Control for Feedforward Single-Image 3D Head Avatars
作者: Yicheng Gong, Jiawei Zhang, Liqiang Liu, Yanwen Wang, Lei Chu, Jiahao Li, Hao Pan, Hao Zhu, Yan Lu
分类: cs.CV
发布日期: 2026-04-16
💡 一句话要点
提出一种显式情感控制的单图3D头像重建框架,实现可控情感迁移。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 3D头像重建 情感控制 显式解耦 双路径调制 几何调制 外观调制 情感迁移 单图重建
📋 核心要点
- 现有3D头像重建方法中,情感信息与几何形状或外观紧密耦合,难以独立控制和编辑。
- 该方法通过双路径调制,将情感作为独立控制信号注入前馈网络,实现情感与身份的解耦。
- 通过构建情感一致的多身份数据集,并集成到现有骨干网络,实现了可控的情感迁移和插值。
📝 摘要(中文)
本文提出了一种用于前馈单图3D头像重建中进行显式情感控制的框架。与现有方法中情感与几何或外观隐式纠缠不同,我们将情感视为一等控制信号,可以在不同身份之间独立且一致地进行操作。我们的方法通过双路径调制机制将情感注入到现有的前馈架构中,而无需修改其核心设计。几何调制在原始参数空间中执行情感条件归一化,将情感状态与语音驱动的表达分离,而外观调制则捕获身份感知、情感相关的视觉线索,超越了几何信息。为了支持在这种设置下的学习,我们通过跨身份转移对齐的情感动态,构建了一个时间同步、情感一致的多身份数据集。集成到多个最先进的骨干网络中,我们的框架在保持重建和重演保真度的同时,实现了可控的情感转移、解耦操作和平滑的情感插值,从而推进了富有表现力和可扩展的3D头像技术。
🔬 方法详解
问题定义:现有3D头像重建方法难以对情感进行显式控制,情感信息往往与几何形状和外观信息纠缠在一起,导致无法独立地编辑和迁移情感。这限制了3D头像的表现力和可控性。
核心思路:论文的核心思路是将情感视为一个独立的控制信号,通过双路径调制机制将其注入到现有的前馈网络中。几何调制负责在参数空间中解耦情感与几何形变,外观调制则负责捕捉与情感相关的视觉线索。
技术框架:整体框架包含两个主要模块:几何调制和外观调制。几何调制模块对参数化的3D模型进行情感条件归一化,从而在几何层面解耦情感和身份信息。外观调制模块则通过学习身份感知的情感依赖视觉线索,增强头像的表现力。整个流程基于单张图像输入,通过前馈网络直接预测带有情感控制的3D头像。
关键创新:该方法最重要的创新点在于将情感作为独立的控制信号,并通过双路径调制机制实现情感与几何、外观的解耦。这种解耦使得可以独立地控制和编辑头像的情感,并实现情感在不同身份之间的迁移。
关键设计:几何调制模块使用了情感条件归一化,具体实现方式未知。外观调制模块的网络结构细节未知。损失函数的设计目标是保证重建的保真度,同时鼓励情感的解耦和可控性。数据集构建方面,通过跨身份转移对齐的情感动态,构建了一个时间同步、情感一致的多身份数据集。
🖼️ 关键图片
📊 实验亮点
该方法在多个最先进的骨干网络上进行了验证,实验结果表明,该方法在保持重建和重演保真度的同时,实现了可控的情感转移、解耦操作和平滑的情感插值。具体性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏、社交媒体等领域,实现更具表现力和个性化的3D头像。用户可以根据自己的需求,定制头像的情感状态,从而增强互动体验。此外,该技术还可用于情感分析、人机交互等领域。
📄 摘要(原文)
We present a framework for explicit emotion control in feed-forward, single-image 3D head avatar reconstruction. Unlike existing pipelines where emotion is implicitly entangled with geometry or appearance, we treat emotion as a first-class control signal that can be manipulated independently and consistently across identities. Our method injects emotion into existing feed-forward architectures via a dual-path modulation mechanism without modifying their core design. Geometry modulation performs emotion-conditioned normalization in the original parametric space, disentangling emotional state from speech-driven articulation, while appearance modulation captures identity-aware, emotion-dependent visual cues beyond geometry. To enable learning under this setting, we construct a time-synchronized, emotion-consistent multi-identity dataset by transferring aligned emotional dynamics across identities. Integrated into multiple state-of-the-art backbones, our framework preserves reconstruction and reenactment fidelity while enabling controllable emotion transfer, disentangled manipulation, and smooth emotion interpolation, advancing expressive and scalable 3D head avatars.