Affective Multimodal Agents with Proactive Knowledge Grounding for Emotionally Aligned Marketing Dialogue

📄 arXiv: 2511.21728v2 📥 PDF

作者: Lin Yu, Xiaofei Han, Yifei Kang, Chiung-Yi Tseng, Danyang Zhang, Ziqian Bi, Zhimo Han

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-11-21 (更新: 2025-12-20)


💡 一句话要点

提出AffectMind,通过主动知识 grounding 实现情感对齐的多模态营销对话。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态对话 情感计算 知识图谱 营销对话 强化学习

📋 核心要点

  1. 现有对话系统在情感丰富的营销场景中缺乏主动性和情感对齐能力,难以有效进行说服。
  2. AffectMind通过主动知识 grounding、情感-意图对齐和强化话语循环,实现情感连贯且具吸引力的对话。
  3. 实验表明,AffectMind在情感一致性、说服成功率和用户参与度方面显著优于现有基于LLM的基线。

📝 摘要(中文)

大型语言模型(LLMs)的最新进展使得对话系统更加流畅,但大多数系统仍然是被动的,并且在情感丰富、目标导向的场景(如营销对话)中表现不佳。为了解决这一局限性,我们提出了AffectMind,一个多模态情感对话代理,它执行主动推理和动态知识 grounding,以维持情感对齐和有说服力的互动。AffectMind结合了三个组件:一个主动知识 Grounding 网络(PKGN),它不断更新来自文本、视觉和韵律的事实和情感上下文;一个情感-意图对齐模型(EIAM),它联合建模用户情感和购买意图,以适应说服策略;以及一个强化话语循环(RDL),它通过用户响应中的强化信号来优化情感连贯性和参与度。在两个新策划的营销对话数据集MM-ConvMarket和AffectPromo上的实验表明,AffectMind在情感一致性(+26%)、说服成功率(+19%)和长期用户参与度(+23%)方面优于强大的基于LLM的基线,突出了情感 grounding 的主动性是商业多模态代理的关键能力。

🔬 方法详解

问题定义:现有基于LLM的对话系统在营销场景中表现被动,难以理解和利用用户的情感状态,从而无法进行有效的情感对齐和说服。它们通常缺乏主动获取和利用相关知识的能力,导致对话缺乏深度和个性化。

核心思路:AffectMind的核心思路是通过主动知识 grounding 来增强对话系统的情感理解和推理能力。它通过持续更新来自文本、视觉和韵律的事实和情感上下文,使代理能够更好地理解用户的需求和情感状态,并根据这些信息调整其说服策略。

技术框架:AffectMind包含三个主要模块:1) Proactive Knowledge Grounding Network (PKGN):负责从多模态输入(文本、视觉、韵律)中提取和更新事实和情感上下文。2) Emotion--Intent Alignment Model (EIAM):联合建模用户的情感和购买意图,用于选择合适的说服策略。3) Reinforced Discourse Loop (RDL):通过强化学习优化对话策略,以最大化情感连贯性和用户参与度。整体流程是PKGN首先处理多模态输入,EIAM根据处理结果选择策略,RDL根据用户反馈调整策略。

关键创新:AffectMind的关键创新在于其主动知识 grounding 机制和情感-意图对齐模型。主动知识 grounding 允许代理动态地获取和利用相关知识,从而提高对话的深度和个性化。情感-意图对齐模型则使代理能够更好地理解用户的情感状态和购买意图,从而选择更有效的说服策略。与现有方法相比,AffectMind更加注重情感理解和主动性。

关键设计:PKGN使用多模态融合技术,将文本、视觉和韵律信息整合到统一的表示中。EIAM使用注意力机制来捕捉情感和意图之间的关系。RDL使用策略梯度方法来优化对话策略,奖励函数的设计考虑了情感连贯性和用户参与度。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AffectMind在MM-ConvMarket和AffectPromo两个数据集上均取得了显著的性能提升。具体来说,AffectMind在情感一致性方面提高了26%,说服成功率提高了19%,长期用户参与度提高了23%,显著优于基于LLM的基线模型,证明了情感 grounding 的主动性在商业多模态代理中的重要性。

🎯 应用场景

AffectMind可应用于各种商业场景,例如在线客服、产品推荐、广告营销等。通过提供情感对齐和个性化的对话体验,它可以提高用户满意度、增加销售额,并建立更强的品牌忠诚度。未来,该技术可以扩展到其他领域,例如教育和医疗保健,以提供更具同情心和个性化的服务。

📄 摘要(原文)

Recent advances in large language models (LLMs) have enabled fluent dialogue systems, but most remain reactive and struggle in emotionally rich, goal-oriented settings such as marketing conversations. To address this limitation, we propose AffectMind, a multimodal affective dialogue agent that performs proactive reasoning and dynamic knowledge grounding to sustain emotionally aligned and persuasive interactions. AffectMind combines three components: a Proactive Knowledge Grounding Network (PKGN) that continuously updates factual and affective context from text, vision, and prosody; an Emotion--Intent Alignment Model (EIAM) that jointly models user emotion and purchase intent to adapt persuasion strategies; and a Reinforced Discourse Loop (RDL) that optimizes emotional coherence and engagement via reinforcement signals from user responses. Experiments on two newly curated marketing dialogue datasets, MM-ConvMarket and AffectPromo, show that AffectMind outperforms strong LLM-based baselines in emotional consistency (+26\%), persuasive success rate (+19\%), and long-term user engagement (+23\%), highlighting emotion-grounded proactivity as a key capability for commercial multimodal agents.