Multimodal Machine Learning Can Predict Videoconference Fluidity and Enjoyment

📄 arXiv: 2501.03190v2 📥 PDF

作者: Andrew Chang, Viswadruth Akkaraju, Ray McFadden Cogliano, David Poeppel, Dustin Freeman

分类: cs.LG, cs.HC, eess.AS, eess.IV

发布日期: 2025-01-06 (更新: 2025-01-07)

备注: ICASSP 2025

DOI: 10.1109/ICASSP49660.2025.10889480


💡 一句话要点

利用多模态机器学习预测视频会议的流畅度和愉悦感

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态机器学习 视频会议 用户体验 情感识别 音频特征

📋 核心要点

  1. 视频会议缺乏面对面交流的流畅性和愉悦感,现有方法难以有效识别和改善用户体验。
  2. 论文提出利用多模态机器学习,融合音频、面部动作和身体运动特征,预测视频会议中的负面体验。
  3. 实验结果表明,该方法在预测对话流畅度和愉悦感方面表现出色,ROC-AUC最高可达0.87。

📝 摘要(中文)

本研究利用多模态机器学习预测视频会议中的负面体验时刻。我们从RoomReader语料库中抽取了数千个短视频片段,提取音频嵌入、面部动作和身体运动特征,训练模型来识别低对话流畅度、低愉悦感,并对对话事件(回应、中断或停顿)进行分类。最佳模型在预留的视频会议会话中实现了高达0.87的ROC-AUC。领域通用的音频特征被证明是最关键的。这项工作表明,多模态音视频信号可以有效地预测高层次的主观对话结果。此外,通过展示多模态机器学习可用于识别罕见的负面用户体验时刻,以供进一步研究或缓解,本文为视频会议用户体验研究做出了贡献。

🔬 方法详解

问题定义:论文旨在解决视频会议中用户体验不佳的问题,具体表现为对话流畅度低、愉悦感不足等。现有方法难以准确识别这些负面体验的时刻,从而无法进行针对性的优化。传统的用户体验评估方法通常依赖于问卷调查或人工观察,效率低且主观性强。

核心思路:论文的核心思路是利用多模态机器学习,将视频会议中的音频、面部动作和身体运动等信息融合起来,构建一个能够预测用户体验的模型。作者认为,这些多模态信号能够反映用户在视频会议中的情绪和状态,从而可以用于识别负面体验的时刻。

技术框架:整体框架包括数据采集、特征提取、模型训练和评估四个主要阶段。首先,从RoomReader语料库中采集视频会议数据。然后,提取音频嵌入、面部动作和身体运动特征。接着,使用这些特征训练机器学习模型,包括分类模型和回归模型。最后,在预留的视频会议会话上评估模型的性能。

关键创新:论文的关键创新在于将多模态机器学习应用于视频会议用户体验的预测。与传统方法相比,该方法能够自动地从音视频信号中提取特征,并利用机器学习模型进行预测,从而提高了效率和准确性。此外,论文还发现领域通用的音频特征在预测用户体验方面起着关键作用。

关键设计:在特征提取方面,论文使用了预训练的音频嵌入模型、面部动作捕捉技术和身体运动跟踪算法。在模型训练方面,论文尝试了多种机器学习模型,包括支持向量机、随机森林和神经网络。论文使用ROC-AUC作为评估指标,并进行了交叉验证以确保模型的泛化能力。具体的参数设置和网络结构在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在预测视频会议的流畅度和愉悦感方面表现出色,最佳模型在预留的视频会议会话中实现了高达0.87的ROC-AUC。领域通用的音频特征被证明是最关键的,表明音频信息在用户体验预测中起着重要作用。这些结果验证了多模态机器学习在视频会议用户体验分析中的有效性。

🎯 应用场景

该研究成果可应用于视频会议软件的优化,例如实时检测用户的负面情绪并提供辅助功能,或用于分析会议记录以改进沟通效率。此外,该技术还可扩展到在线教育、远程医疗等领域,提升用户体验和沟通效果,具有广泛的应用前景。

📄 摘要(原文)

Videoconferencing is now a frequent mode of communication in both professional and informal settings, yet it often lacks the fluidity and enjoyment of in-person conversation. This study leverages multimodal machine learning to predict moments of negative experience in videoconferencing. We sampled thousands of short clips from the RoomReader corpus, extracting audio embeddings, facial actions, and body motion features to train models for identifying low conversational fluidity, low enjoyment, and classifying conversational events (backchanneling, interruption, or gap). Our best models achieved an ROC-AUC of up to 0.87 on hold-out videoconference sessions, with domain-general audio features proving most critical. This work demonstrates that multimodal audio-video signals can effectively predict high-level subjective conversational outcomes. In addition, this is a contribution to research on videoconferencing user experience by showing that multimodal machine learning can be used to identify rare moments of negative user experience for further study or mitigation.