Multimodal Hidden Markov Models for Persistent Emotional State Tracking

📄 arXiv: 2605.12838v1 📥 PDF

作者: Anamika Ragu, Aneesh Jonelagadda

分类: cs.AI

发布日期: 2026-05-13

备注: 8 pages, 2 figures


💡 一句话要点

提出基于多模态隐马尔可夫模型的持续情感状态追踪框架,用于理解对话情感弧。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感识别 对话系统 隐马尔可夫模型 多模态融合 情感状态追踪

📋 核心要点

  1. 现有情感识别方法主要关注话语层面,忽略了对话中持续存在的情感阶段,无法捕捉真实对话动态。
  2. 提出一种基于粘性因子HDP-HMM的轻量级框架,利用多模态信息建模对话中的潜在情感状态序列。
  3. 实验表明,该方法能产生更易解释的情感状态序列,计算成本更低,并能提升LLM在不稳定情感状态下的响应质量。

📝 摘要(中文)

本文提出了一种轻量级框架,用于追踪对话中可解释的情感弧。该框架通过处理单个话语的情感,将对话情感建模为潜在情感状态序列。具体而言,使用了粘性因子HDP-HMM,输入为同步视频、音频和文本信息导出的多模态效价-唤醒表示。通过LLM-as-a-Judge、几何和时间一致性指标评估了状态预测的质量,结果表明,粘性HDP-HMM比基线高斯HMM产生更易于解释的状态序列,且计算成本远低于基于LLM的对话状态跟踪方法。在临床数据集上的问答实验表明,可以从多模态效价-唤醒轨迹中可靠地恢复有意义的情感阶段,并通过上下文增强来提高LLM在不稳定情感状态下的响应质量。该框架为大规模对话情感动态的可解释、轻量级和可操作的分析开辟了道路。

🔬 方法详解

问题定义:现有情感识别方法主要在话语层面进行分析,无法捕捉到对话过程中持续存在的情感状态或阶段。这使得理解对话整体的情感变化,特别是情感弧变得困难。在临床等应用场景中,理解和引导对话需要对情感的持续性进行建模,而现有方法无法满足这一需求。

核心思路:本文的核心思路是将对话的情感动态建模为一个由潜在情感状态组成的序列。通过隐马尔可夫模型(HMM)来推断这些潜在状态,并利用多模态信息(视频、音频、文本)来提高状态识别的准确性和鲁棒性。使用粘性因子HDP-HMM鼓励状态的持续性,从而更好地捕捉情感弧。

技术框架:该框架主要包含以下几个阶段:1) 多模态特征提取:从视频、音频和文本数据中提取特征,并将其融合为多模态效价-唤醒表示。2) 情感状态建模:使用粘性因子HDP-HMM对对话的情感状态进行建模,其中每个状态代表一种潜在的情感状态。3) 状态推断:利用HMM的推断算法,根据多模态输入序列推断出最可能的情感状态序列。4) 状态评估:使用LLM-as-a-Judge、几何和时间一致性指标评估状态预测的质量。

关键创新:该论文的关键创新在于:1) 将粘性因子HDP-HMM应用于对话情感状态的建模,能够更好地捕捉情感的持续性。2) 利用多模态信息来提高情感状态识别的准确性和鲁棒性。3) 提出了一种轻量级的框架,计算成本远低于基于LLM的对话状态跟踪方法。

关键设计:论文使用了粘性因子HDP-HMM,其中粘性参数控制状态转移的概率,鼓励状态的持续性。多模态特征融合的方式未知,但强调了valence-arousal表示的重要性。损失函数方面,HMM通常使用最大似然估计进行参数学习。具体网络结构未知,但强调了框架的轻量级特性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,粘性HDP-HMM比基线高斯HMM产生更易于解释的状态序列,且计算成本远低于基于LLM的对话状态跟踪方法。在临床数据集上的问答实验表明,可以从多模态效价-唤醒轨迹中可靠地恢复有意义的情感阶段,并通过上下文增强来提高LLM在不稳定情感状态下的响应质量。具体性能数据未知,但强调了在可解释性、计算效率和LLM响应质量方面的提升。

🎯 应用场景

该研究成果可应用于临床对话分析、客户服务、在线教育等领域。通过追踪对话中的情感弧,可以更好地理解对话参与者的情感状态,从而提供更个性化和有效的服务。例如,在临床场景中,可以帮助医生更好地了解患者的情感变化,从而制定更合适的治疗方案。在客户服务中,可以帮助客服人员更好地理解客户的需求和情绪,从而提供更优质的服务。

📄 摘要(原文)

Tracking an interpretable emotional arc of a conversation via the sentiment of individual utterances processed as a whole is central to both understanding and guiding communication in applied, especially clinical, conversational contexts. Existing approaches to emotion recognition operate at the utterance level, obscuring the persistent phases that characterize real conversational dynamics. We propose a lightweight framework that models conversational emotion as a sequence of latent emotional regimes using sticky factorial HDP-HMMs over multimodal valence-arousal representations derived from simultaneous video, audio and textual input. We evaluate the quality of regime prediction using LLM-as-a-Judge, geometric, and temporal consistency metrics, demonstrating that the sticky HDP-HMM produces more interpretable regime sequences than the baseline Gaussian HMM at a fraction of the computational cost of LLM-based dialogue state tracking methods. In addition, Question-Answer experiments in a clinical dataset suggest that meaningful emotional phases can reliably be recovered from multimodal valence-arousal trajectories and used to improve the quality of LLM responses in unstable affective regimes via context augmentation. This framework thus opens a path toward interpretable, lightweight, and actionable analysis of conversational emotion dynamics at scale.