Multimodal Fusion with Semi-Supervised Learning Minimizes Annotation Quantity for Modeling Videoconference Conversation Experience

作者: Andrew Chang, Chenkai Hu, Ji Qi, Zhuojian Wei, Kexin Zhang, Viswadruth Akkaraju, David Poeppel, Dustin Freeman

分类: eess.AS, cs.CL, cs.HC, cs.LG, cs.MM

发布日期: 2025-06-01

备注: Interspeech 2025

DOI: 10.21437/Interspeech.2025-2451

💡 一句话要点

提出半监督学习方法以减少视频会议对话体验建模的标注需求

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频会议 半监督学习 多模态融合 对话体验 深度学习

📋 核心要点

现有方法在建模视频会议对话体验时，面临标注数据稀缺和昂贵的挑战，尤其是负面体验的时刻。
本文提出了一种半监督学习方法，结合标注和未标注数据，利用多模态特征来预测对话中的非流畅时刻。
实验结果显示，半监督学习模型在相同标注数据量下，性能超越监督学习模型，且仅需8%标注数据即可接近全数据性能。

📝 摘要（中文）

视频会议中的群体对话是一种复杂的社会行为，但负面体验的主观时刻，如对话失去流畅性或乐趣，仍然缺乏研究。这些时刻在自然数据中较为罕见，因此训练监督学习模型需要昂贵的手动数据标注。本文应用半监督学习，利用有针对性的标注和未标注片段，训练多模态（音频、面部、文本）深度特征，以预测视频会议中的非流畅或不愉快时刻。通过模态融合的共同训练，半监督学习模型实现了0.9的ROC-AUC和0.6的F1分数，超越了相同标注数据量的监督学习模型4%。值得注意的是，最佳的半监督学习模型仅使用8%的标注数据，便达到了监督学习模型全数据性能的96%。这表明了一种高效的标注框架，用于建模视频会议体验。

🔬 方法详解

问题定义：本文旨在解决视频会议对话中负面体验时刻的建模问题。现有的监督学习方法依赖大量标注数据，而这些数据的获取成本高且稀缺。

核心思路：论文提出通过半监督学习方法，结合少量标注数据与大量未标注数据，利用多模态特征（音频、面部表情、文本）来提高模型的预测能力。这样的设计旨在减少对标注数据的依赖，同时提升模型的泛化能力。

技术框架：整体架构包括数据预处理、特征提取、模型训练和评估四个主要模块。首先，从视频中提取音频、面部和文本特征；然后，利用半监督学习框架进行模型训练，最后评估模型在未见数据上的表现。

关键创新：最重要的技术创新在于模态融合的共同训练策略，通过有效利用标注和未标注数据，显著提高了模型在负面体验预测上的准确性。这与传统的监督学习方法形成鲜明对比，后者通常依赖于大量标注数据。

关键设计：在模型设计中，采用了特定的损失函数来平衡标注和未标注数据的影响，同时在网络结构上进行了优化，以适应多模态特征的融合。

📊 实验亮点

实验结果显示，模态融合的半监督学习模型在ROC-AUC上达到了0.9，F1分数为0.6，超越了相同标注数据量的监督学习模型4%。此外，最佳半监督学习模型仅使用8%的标注数据，便达到了监督学习模型全数据性能的96%，显示出显著的标注效率提升。

🎯 应用场景

该研究的潜在应用领域包括视频会议软件、在线教育平台和远程协作工具等。通过有效识别对话中的负面体验时刻，可以为用户提供实时反馈和改善建议，从而提升整体沟通体验。未来，该方法还可以扩展到其他社交互动场景，具有广泛的实际价值。

📄 摘要（原文）

Group conversations over videoconferencing are a complex social behavior. However, the subjective moments of negative experience, where the conversation loses fluidity or enjoyment remain understudied. These moments are infrequent in naturalistic data, and thus training a supervised learning (SL) model requires costly manual data annotation. We applied semi-supervised learning (SSL) to leverage targeted labeled and unlabeled clips for training multimodal (audio, facial, text) deep features to predict non-fluid or unenjoyable moments in holdout videoconference sessions. The modality-fused co-training SSL achieved an ROC-AUC of 0.9 and an F1 score of 0.6, outperforming SL models by up to 4% with the same amount of labeled data. Remarkably, the best SSL model with just 8% labeled data matched 96% of the SL model's full-data performance. This shows an annotation-efficient framework for modeling videoconference experience.

Multimodal Fusion with Semi-Supervised Learning Minimizes Annotation Quantity for Modeling Videoconference Conversation Experience

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册