Dual-Model Prediction of Affective Engagement and Vocal Attractiveness from Speaker Expressiveness in Video Learning

📄 arXiv: 2603.18758v1 📥 PDF

作者: Hung-Yue Suen, Kuo-En Hung, Fan-Hsun Tseng

分类: cs.HC, cs.CV, cs.SD

发布日期: 2026-03-19

备注: Preprint. Accepted for publication in IEEE Transactions on Computational Social Systems

期刊: IEEE Transactions on Computational Social Systems, 2026

DOI: 10.1109/TCSS.2026.3675249


💡 一句话要点

提出一种基于说话人情感表达的双模型,用于预测视频学习中的情感参与度和声音吸引力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感计算 说话人情感 情感参与度 声音吸引力 多模态融合 机器学习 在线教育

📋 核心要点

  1. 现有情感计算方法通常依赖于观众侧的输入,存在隐私问题和可扩展性挑战。
  2. 该研究提出一种以说话人为中心的情感AI方法,仅利用说话人的情感表达来预测观众的情感参与度和声音吸引力。
  3. 实验结果表明,该方法在预测情感参与度和声音吸引力方面表现出色,R2分别达到0.85和0.88。

📝 摘要(中文)

本文提出了一种基于机器学习的、以说话人为中心的情感AI方法,该方法仅依赖于说话人的情感表达,即可预测异步视频学习中观众的情感参与度和声音吸引力。受可扩展、保护隐私的情感计算应用需求的启发,这种以说话人为中心的情感AI方法包含两个不同的回归模型,利用大规模开放在线课程(MOOCs)中开发的大量语料库,以实现情感参与体验。预测情感参与度的回归模型通过整合面部动态、眼动特征、韵律和认知语义的情感表达而开发,同时结合第二个回归模型,仅基于说话人的声学特征来预测声音吸引力。值得注意的是,在说话人独立的测试集上,两个回归模型都产生了令人印象深刻的预测性能(情感参与度的R2 = 0.85,声音吸引力的R2 = 0.88),证实了说话人的情感可以有效地代表聚合的观众反馈。本文提供了一种以说话人为中心的情感AI方法,该方法通过一项实证研究证实,说话人的多模态特征(包括声学特征)可以前瞻性地预测观众反馈,而无需使用观众侧的输入信息。

🔬 方法详解

问题定义:论文旨在解决异步视频学习中,如何仅通过分析说话人的情感表达来预测观众的情感参与度和声音吸引力的问题。现有方法通常需要收集观众的反馈数据,这涉及到隐私问题,并且难以大规模应用。因此,如何设计一种保护隐私且可扩展的情感计算方法是一个挑战。

核心思路:论文的核心思路是,说话人的情感表达可以反映观众的平均情感状态。通过构建回归模型,将说话人的面部表情、眼动、语音韵律和语义信息映射到观众的情感参与度,并将说话人的声学特征映射到声音吸引力。这种方法避免了直接收集观众数据,从而保护了隐私。

技术框架:整体框架包含两个独立的回归模型:情感参与度预测模型和声音吸引力预测模型。情感参与度预测模型输入包括面部动态特征、眼动特征、语音韵律特征和认知语义特征。声音吸引力预测模型仅输入说话人的声学特征。两个模型均使用MOOCs数据进行训练和评估。

关键创新:该研究的关键创新在于提出了一种以说话人为中心的情感AI方法,证明了说话人的情感表达可以有效地预测观众的情感反馈,而无需直接收集观众数据。这种方法具有更好的隐私保护性和可扩展性。

关键设计:情感参与度预测模型融合了多种模态的特征,包括视觉、听觉和语义信息。具体来说,面部动态特征可能包括面部动作单元(AU),眼动特征可能包括注视点位置和注视时长,语音韵律特征可能包括语速、音高和能量,认知语义特征可能包括词嵌入和主题模型。声音吸引力预测模型则侧重于声学特征,例如梅尔频率倒谱系数(MFCC)和基频。

📊 实验亮点

实验结果表明,该方法在说话人独立的测试集上取得了显著的预测性能。情感参与度预测模型的R2值为0.85,声音吸引力预测模型的R2值为0.88。这些结果表明,仅通过分析说话人的情感表达,就可以有效地预测观众的情感反馈,并且该方法具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于在线教育、视频会议、虚拟主播等领域。通过分析说话人的情感表达,可以实时调整教学策略、优化演讲内容,提高观众的参与度和满意度。此外,该方法还可以用于评估演讲者的声音吸引力,为演讲者提供改进建议。该研究具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

This paper outlines a machine learning-enabled speaker-centric Emotion AI approach capable of predicting audience-affective engagement and vocal attractiveness in asynchronous video-based learning, relying solely on speaker-side affective expressions. Inspired by the demand for scalable, privacy-preserving affective computing applications, this speaker-centric Emotion AI approach incorporates two distinct regression models that leverage a massive corpus developed within Massive Open Online Courses (MOOCs) to enable affectively engaging experiences. The regression model predicting affective engagement is developed by assimilating emotional expressions emanating from facial dynamics, oculomotor features, prosody, and cognitive semantics, while incorporating a second regression model to predict vocal attractiveness based exclusively on speaker-side acoustic features. Notably, on speaker-independent test sets, both regression models yielded impressive predictive performance (R2 = 0.85 for affective engagement and R2 = 0.88 for vocal attractiveness), confirming that speaker-side affect can functionally represent aggregated audience feedback. This paper provides a speaker-centric Emotion AI approach substantiated by an empirical study discovering that speaker-side multimodal features, including acoustics, can prospectively forecast audience feedback without necessarily employing audience-side input information.