LaScA: Language-Conditioned Scalable Modelling of Affective Dynamics
作者: Kosmas Pinitas, Ilias Maglogiannis
分类: cs.CL, cs.ET
发布日期: 2026-04-08
备注: This paper has been accepted at the CVPR 2026 Workshop on Affective Behavior Analysis in-the-wild (ABAW)
💡 一句话要点
LaScA:提出一种基于语言条件的可扩展情感动态建模方法,提升情感预测的准确性和可解释性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感预测 语言模型 可解释性 面部表情分析 语音情感识别
📋 核心要点
- 现有情感预测方法缺乏可解释性,限制了专家驱动的优化和改进。
- 利用语言模型作为语义上下文条件,结合手工特征,建模情感变化,提升模型透明度。
- 在Aff-Wild2和SEWA数据集上,与基线方法相比,效价和唤醒度的预测准确性得到一致提升。
📝 摘要(中文)
本文提出了一种新颖的框架,该框架使用语言模型(LM)作为语义上下文条件,作用于手工设计的特征描述符,以建模效价(Valence)和唤醒度(Arousal)的变化。该方法首先从结构化的领域知识中提取可解释的面部几何和声学特征,然后将这些特征转换为符号化的自然语言描述,编码其情感含义。预训练的LM处理这些描述,生成语义上下文嵌入,作为情感动态的高级先验。与端到端的黑盒流程不同,该框架在利用LM的上下文抽象能力的同时,保留了特征的透明性。在Aff-Wild2和SEWA数据集上评估了该方法的情感变化预测性能。实验结果表明,与仅使用手工特征和深度嵌入的基线方法相比,效价和唤醒度的准确性均得到持续提高。研究结果表明,语义条件能够在不牺牲预测性能的情况下实现可解释的情感建模,为完全端到端的架构提供了一种透明且计算高效的替代方案。
🔬 方法详解
问题定义:现有基于深度学习的情感预测方法,尤其是端到端的方法,通常缺乏可解释性,难以理解模型做出预测的原因。这使得专家难以对模型进行调试和改进,也限制了模型在需要透明度的场景中的应用。
核心思路:该论文的核心思路是将可解释的手工特征与语言模型的语义理解能力相结合。通过将手工特征转化为自然语言描述,然后利用预训练的语言模型提取这些描述的语义信息,从而为情感动态建模提供更丰富的上下文信息。这种方法既保留了特征的可解释性,又利用了语言模型的强大表示能力。
技术框架:该框架包含以下几个主要模块:1) 特征提取模块:从面部几何和声学信号中提取手工特征。2) 语言描述模块:将提取的特征转化为自然语言描述,例如“眉毛抬高”或“语速加快”。3) 语言模型模块:使用预训练的语言模型(如BERT)处理自然语言描述,生成语义上下文嵌入。4) 情感预测模块:将语义上下文嵌入与手工特征结合,预测效价和唤醒度的变化。
关键创新:该论文的关键创新在于使用语言模型作为语义上下文条件,作用于手工特征,从而在情感预测中实现了可解释性和高性能的平衡。与传统的端到端深度学习方法相比,该方法保留了特征的透明性,使得专家可以更容易地理解模型的工作原理。与仅使用手工特征的方法相比,该方法利用了语言模型的语义理解能力,从而提高了预测的准确性。
关键设计:论文中,手工特征的选择基于领域知识,例如面部动作单元(AU)和声学特征。自然语言描述的设计需要能够准确地表达特征的情感含义。语言模型的选择需要考虑其语义理解能力和计算效率。情感预测模块可以使用各种回归模型,例如线性回归或支持向量回归。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Aff-Wild2和SEWA数据集上,该方法在效价和唤醒度的预测准确性方面均优于手工特征和深度嵌入基线方法。具体而言,与仅使用手工特征的基线相比,该方法在Aff-Wild2数据集上的效价预测准确率提高了约5%,在SEWA数据集上的唤醒度预测准确率提高了约3%。这些结果表明,语义条件能够有效地提高情感预测的准确性。
🎯 应用场景
该研究成果可应用于人机交互、情感计算、心理健康监测等领域。例如,可以开发更智能的虚拟助手,能够更准确地理解用户的情绪并做出适当的反应。还可以用于心理健康评估,通过分析用户的面部表情和语音信号,辅助医生诊断和治疗心理疾病。此外,该方法还可以应用于情感营销,帮助企业更好地了解消费者的情感需求。
📄 摘要(原文)
Predicting affect in unconstrained environments remains a fundamental challenge in human-centered AI. While deep neural embeddings dominate contemporary approaches, they often lack interpretability and limit expert-driven refinement. We propose a novel framework that uses Language Models (LMs) as semantic context conditioners over handcrafted affect descriptors to model changes in Valence and Arousal. Our approach begins with interpretable facial geometry and acoustic features derived from structured domain knowledge. These features are transformed into symbolic natural-language descriptions encoding their affective implications. A pretrained LM processes these descriptions to generate semantic context embeddings that act as high-level priors over affective dynamics. Unlike end-to-end black-box pipelines, our framework preserves feature transparency while leveraging the contextual abstraction capabilities of LMs. We evaluate the proposed method on the Aff-Wild2 and SEWA datasets for affect change prediction. Experimental results show consistent improvements in accuracy for both Valence and Arousal compared to handcrafted-only and deep-embedding baselines. Our findings demonstrate that semantic conditioning enables interpretable affect modelling without sacrificing predictive performance, offering a transparent and computationally efficient alternative to fully end-to-end architectures