Giving Faces Their Feelings Back: Explicit Emotion Control for Feedforward Single-Image 3D Head Avatars

作者: Yicheng Gong, Jiawei Zhang, Liqiang Liu, Yanwen Wang, Lei Chu, Jiahao Li, Hao Pan, Hao Zhu, Yan Lu

分类: cs.CV

发布日期: 2026-04-16

💡 一句话要点

提出一种显式情感控制的单图3D头像重建框架，实现可控情感迁移。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 3D头像重建 情感控制 显式解耦 双路径调制 几何调制 外观调制 情感迁移 单图重建

📋 核心要点

现有3D头像重建方法中，情感信息与几何形状或外观紧密耦合，难以独立控制和编辑。
该方法通过双路径调制，将情感作为独立控制信号注入前馈网络，实现情感与身份的解耦。
通过构建情感一致的多身份数据集，并集成到现有骨干网络，实现了可控的情感迁移和插值。

📝 摘要（中文）

本文提出了一种用于前馈单图3D头像重建中进行显式情感控制的框架。与现有方法中情感与几何或外观隐式纠缠不同，我们将情感视为一等控制信号，可以在不同身份之间独立且一致地进行操作。我们的方法通过双路径调制机制将情感注入到现有的前馈架构中，而无需修改其核心设计。几何调制在原始参数空间中执行情感条件归一化，将情感状态与语音驱动的表达分离，而外观调制则捕获身份感知、情感相关的视觉线索，超越了几何信息。为了支持在这种设置下的学习，我们通过跨身份转移对齐的情感动态，构建了一个时间同步、情感一致的多身份数据集。集成到多个最先进的骨干网络中，我们的框架在保持重建和重演保真度的同时，实现了可控的情感转移、解耦操作和平滑的情感插值，从而推进了富有表现力和可扩展的3D头像技术。

🔬 方法详解

问题定义：现有3D头像重建方法难以对情感进行显式控制，情感信息往往与几何形状和外观信息纠缠在一起，导致无法独立地编辑和迁移情感。这限制了3D头像的表现力和可控性。

核心思路：论文的核心思路是将情感视为一个独立的控制信号，通过双路径调制机制将其注入到现有的前馈网络中。几何调制负责在参数空间中解耦情感与几何形变，外观调制则负责捕捉与情感相关的视觉线索。

技术框架：整体框架包含两个主要模块：几何调制和外观调制。几何调制模块对参数化的3D模型进行情感条件归一化，从而在几何层面解耦情感和身份信息。外观调制模块则通过学习身份感知的情感依赖视觉线索，增强头像的表现力。整个流程基于单张图像输入，通过前馈网络直接预测带有情感控制的3D头像。

关键创新：该方法最重要的创新点在于将情感作为独立的控制信号，并通过双路径调制机制实现情感与几何、外观的解耦。这种解耦使得可以独立地控制和编辑头像的情感，并实现情感在不同身份之间的迁移。

关键设计：几何调制模块使用了情感条件归一化，具体实现方式未知。外观调制模块的网络结构细节未知。损失函数的设计目标是保证重建的保真度，同时鼓励情感的解耦和可控性。数据集构建方面，通过跨身份转移对齐的情感动态，构建了一个时间同步、情感一致的多身份数据集。

🖼️ 关键图片

📊 实验亮点

该方法在多个最先进的骨干网络上进行了验证，实验结果表明，该方法在保持重建和重演保真度的同时，实现了可控的情感转移、解耦操作和平滑的情感插值。具体性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏、社交媒体等领域，实现更具表现力和个性化的3D头像。用户可以根据自己的需求，定制头像的情感状态，从而增强互动体验。此外，该技术还可用于情感分析、人机交互等领域。

📄 摘要（原文）

We present a framework for explicit emotion control in feed-forward, single-image 3D head avatar reconstruction. Unlike existing pipelines where emotion is implicitly entangled with geometry or appearance, we treat emotion as a first-class control signal that can be manipulated independently and consistently across identities. Our method injects emotion into existing feed-forward architectures via a dual-path modulation mechanism without modifying their core design. Geometry modulation performs emotion-conditioned normalization in the original parametric space, disentangling emotional state from speech-driven articulation, while appearance modulation captures identity-aware, emotion-dependent visual cues beyond geometry. To enable learning under this setting, we construct a time-synchronized, emotion-consistent multi-identity dataset by transferring aligned emotional dynamics across identities. Integrated into multiple state-of-the-art backbones, our framework preserves reconstruction and reenactment fidelity while enabling controllable emotion transfer, disentangled manipulation, and smooth emotion interpolation, advancing expressive and scalable 3D head avatars.

Giving Faces Their Feelings Back: Explicit Emotion Control for Feedforward Single-Image 3D Head Avatars

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理