Resonant Minds: Closed-Loop Social Avatars with Theory of Mind
作者: Jianxu Shangguan, Jing Xu, Hang Ye, Xiaoxuan Ma, Yizhou Wang, Wentao Zhu
分类: cs.CV
发布日期: 2026-06-04
💡 一句话要点
提出闭环双代理框架以解决数字人类社交智能不足问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社交智能 多模态生成 闭环框架 心理状态推理 数字人类 情感表达 对话系统
📋 核心要点
- 现有方法将社交智能的认知推理与多模态生成视为独立任务,导致数字人类在社交互动中的表现不足。
- 本文提出的闭环双代理框架整合了感知、社交推理和表达,形成一个连续的互动循环,提升了社交智能的表现。
- 实验结果表明,本文方法在对话质量和视频生成方面超越了现有基线,尤其在信息不对称的情况下表现更佳。
📝 摘要(中文)
创建具有真实社交智能的逼真数字人类需要将认知推理与多模态生成统一在一个连贯的框架内。目前的方法将这两者视为独立任务:大型语言模型在对话方面表现出色,但缺乏具身表达,而基于扩散的对话头模型则实现了视觉逼真性,但忽视了社交认知。为弥补这一差距,本文提出了一种闭环双代理框架,将感知、社交推理和表达整合到一个连续的互动循环中。感知模块分析合作伙伴的多模态行为,社交推理模块通过心智理论推断隐藏的心理状态,并通过集成机制选择响应。表达模块生成情感可控的双代理视频,捕捉双向动态。实验结果表明,该方法在对话质量和视频生成指标上表现优越,尤其在信息不对称的情况下,显著提升了对话的深度。
🔬 方法详解
问题定义:本文旨在解决现有数字人类在社交智能方面的不足,尤其是认知推理与多模态生成的分离导致的互动质量低下。
核心思路:提出闭环双代理框架,通过感知、社交推理和表达模块的协同工作,实现更自然和智能的社交互动。这样的设计使得数字人类能够在对话中理解和反应对方的心理状态。
技术框架:整体架构包括三个主要模块:感知模块负责分析视频中的多模态行为,社交推理模块通过心智理论推断心理状态并选择响应,表达模块生成情感可控的视频,捕捉双向动态。
关键创新:最重要的创新在于将社交推理与多模态生成结合在一个闭环框架中,突破了传统方法的局限,能够在信息不对称的情况下进行更深层次的对话。
关键设计:在设计中,采用了心理学基础的角色-场景数据集,设置了多种损失函数以优化对话质量和视频生成效果,确保生成的内容在情感表达和互动反应上都具有高质量。
🖼️ 关键图片
📊 实验亮点
实验结果显示,本文方法在对话质量和视频生成指标上超越了现有基线,尤其在信息不对称的情况下,表现出更高的对话深度和情感表达能力,显著提升了用户体验。
🎯 应用场景
该研究的潜在应用领域包括虚拟助手、社交机器人和游戏角色等,能够为用户提供更自然的互动体验。通过提升数字人类的社交智能,未来可能在教育、心理治疗和娱乐等多个领域产生深远影响。
📄 摘要(原文)
Creating lifelike digital humans with genuine social intelligence requires unifying cognitive reasoning and multimodal generation within a coherent framework. Current approaches treat these as separate tasks: Large Language Models excel at dialogue but lack embodied expression, while diffusion-based talking head models achieve visual fidelity but ignore social cognition. To bridge this gap, we propose a closed-loop dual-agent framework integrating perception, social reasoning, and expression into a continuous interaction cycle. The perception module analyzes partners' multimodal behaviors from video, while the social reasoning module infers hidden mental states through Theory of Mind and selects responses via an ensemble mechanism. The expression module then generates emotion-controllable dual-agent videos synthesizing both speaker speech and expression alongside listener reactive behaviors, capturing bidirectional dynamics absent in prior work. We construct a hierarchical Persona-Scenario dataset with psychologically grounded personas and private social goals to support evaluation under information asymmetry. Experiments on this dataset demonstrate competitive or superior performance on both dialogue quality and video generation metrics. Notably, our method surpasses even the full-information Script mode on key dialogue quality dimensions, suggesting that explicit mental state inference under uncertainty can elicit more thoughtful dialogue than unrestricted information access.