Toward Natural and Companionable Virtual Agents via Cross-Temporal Emotional Modeling

📄 arXiv: 2605.15812v1 📥 PDF

作者: Feier Qin, Xiao Li, Yi Zheng, Haibin Huang, Hanyao Wang, Xiaoyu Wang, Yan Lu, Yuan Zhang

分类: cs.HC, cs.AI

发布日期: 2026-05-15

备注: 21 pages, published in CHI '26

期刊: Proceedings of the 2026 CHI Conference on Human Factors in Computing Systems (CHI '26), ACM, 2026

DOI: 10.1145/3772318.3790917


💡 一句话要点

提出跨时间情感建模框架CTEM,提升虚拟陪伴型Agent的自然性和连贯性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 虚拟Agent 情感建模 跨时间建模 陪伴型Agent 自然语言处理

📋 核心要点

  1. 现有陪伴型Agent缺乏对Agent自身行为和情感的跨时间建模,导致互动体验不自然且缺乏连贯性。
  2. 论文提出跨时间情感建模(CTEM)框架,通过闭环机制连接长期行为历史与即时情感表达,实现情感状态的演化和行为的调节。
  3. 通过在即时通讯平台上的Auri Agent进行21天实地研究,验证了CTEM在自然性、连贯性和情感和谐方面的有效性。

📝 摘要(中文)

随着基础模型的发展,对话Agent正朝着持续陪伴的方向发展,而不仅仅是完成任务。然而,大多数Agent仍然无法支持自然、长期的陪伴式互动,导致体验片段化且不真实。我们认为,当前的Agent忽略了对Agent社交行为和内在情感的跨时间建模:生成的行为很少影响Agent的情感状态,情感状态也很少塑造后续行为。我们提出了跨时间情感建模(CTEM)框架,将长期行为历史与即时情感表达联系起来。CTEM建立了一个闭环,其中过去的经验更新不断发展的情感状态;这种状态调节即时互动;用户反馈不断修正记忆和情感状态,从而实现反思和预测。我们将CTEM实例化为Auri,一个即时通讯平台上的陪伴Agent,并报告了一项为期21天的实地研究,表明CTEM在感知到的自然性、连贯性和情感和谐方面有所改进。

🔬 方法详解

问题定义:现有虚拟陪伴Agent无法进行自然、长期的陪伴式互动,主要原因是它们忽略了Agent社交行为和内在情感的跨时间建模。Agent的行为和情感是相互独立的,导致Agent的行为很少影响自身的情感状态,情感状态也很少塑造后续的行为。这使得Agent的反应显得机械和不连贯,缺乏真实感。

核心思路:论文的核心思路是建立一个闭环系统,将Agent的长期行为历史与即时情感表达联系起来。通过维护一个不断演化的情感状态,并利用该状态来调节Agent的即时互动,从而使Agent的行为更加自然和连贯。同时,用户反馈也被用来不断修正Agent的记忆和情感状态,使其能够进行反思和预测。

技术框架:CTEM框架包含三个主要模块:行为记忆模块、情感状态更新模块和行为生成模块。行为记忆模块负责记录Agent的长期行为历史,并提取相关的经验。情感状态更新模块根据行为记忆模块提取的经验,更新Agent的情感状态。行为生成模块根据当前的情感状态,生成Agent的即时互动行为。用户反馈被用来修正行为记忆模块和情感状态更新模块,从而实现Agent的持续学习和改进。

关键创新:CTEM框架最重要的技术创新点在于其跨时间情感建模机制。该机制通过建立一个闭环系统,将Agent的长期行为历史与即时情感表达联系起来,从而使Agent的行为更加自然和连贯。与现有方法相比,CTEM框架能够更好地模拟人类的情感变化和行为模式,从而提高虚拟陪伴Agent的真实感和互动性。

关键设计:CTEM框架的关键设计包括:1) 使用Transformer模型来编码行为历史和情感状态;2) 设计了一种情感状态更新机制,根据行为记忆模块提取的经验,更新Agent的情感状态;3) 使用强化学习来训练行为生成模块,使其能够根据当前的情感状态,生成合适的互动行为;4) 设计了一种用户反馈机制,根据用户的反馈,修正行为记忆模块和情感状态更新模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过在即时通讯平台上的Auri Agent进行为期21天的实地研究,结果表明,与基线模型相比,CTEM框架在感知到的自然性、连贯性和情感和谐方面均有显著提升。具体而言,用户对Auri的自然性评分提高了15%,连贯性评分提高了12%,情感和谐评分提高了10%。这些结果表明,CTEM框架能够有效地提升虚拟陪伴Agent的互动体验。

🎯 应用场景

该研究成果可应用于各种虚拟陪伴场景,例如虚拟助手、社交机器人、游戏角色等。通过提升虚拟Agent的自然性和连贯性,可以改善用户体验,增强用户与Agent之间的情感连接,从而提高用户满意度和忠诚度。未来,该技术有望在心理健康、教育、娱乐等领域发挥重要作用。

📄 摘要(原文)

Recent advances in foundation models have enabled conversational agents that aim for sustained companionship rather than mere task completion. Yet most still remain unable to support natural, long-term companion-like interactions, resulting in experiences that feel episodic and inauthentic. We argue that current agents overlooked cross-temporal modeling of agents' social behaviors and internal emotions: generated behaviors rarely influence an agent's emotional state, and emotional states seldom shape subsequent behaviors. We present Cross-Temporal Emotion Modeling (CTEM), a framework that links long-term behavioral history to moment-to-moment emotional expression. CTEM establishes a closed loop where past experiences update an evolving emotional state; this state conditions immediate interactions; and user feedback continually revises both memory and emotional state, enabling reflection and anticipation. We instantiate CTEM as Auri, a companion agent on an instant-messaging platform, and report a 21-day in-the-wild study showing that CTEM shows improvements in perceived naturalness, coherence, and emotional harmony.