GAViD: A Large-Scale Multimodal Dataset for Context-Aware Group Affect Recognition from Videos

作者: Deepak Kumar, Abhishek Pratap Singh, Puneet Kumar, Xiaobai Li, Balasubramanian Raman

分类: cs.CV

发布日期: 2026-04-17

💡 一句话要点

GAViD：大规模多模态数据集，用于视频中上下文感知群体情感识别

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 群体情感识别 多模态学习 上下文感知 视频分析 数据集构建

📋 核心要点

现有群体情感识别方法缺乏大规模多模态数据集支持，难以有效建模复杂情境下的情感互动。
论文构建GAViD数据集，包含视频、音频、上下文等多模态信息，并进行情感和行为标注。
提出CAGNet模型，利用多模态数据和上下文信息进行群体情感识别，并在GAViD数据集上取得良好效果。

📝 摘要（中文）

理解真实世界社交系统中的情感动态，对于建模和分析复杂环境中的人际互动至关重要。群体情感源于交织的人际互动、情境影响和行为线索，这使得其定量建模成为一个具有挑战性的计算社会系统问题。然而，由于缺乏大规模标注数据集以及受情境和行为可变性影响的多模态社交互动的固有复杂性，在实际场景中对群体情感进行计算建模仍然具有挑战性。缺乏包含多模态和情境信息的综合数据集进一步限制了该领域的进展。为了解决这个问题，我们引入了群体情感视频数据集（GAViD），该数据集包含5091个视频片段，具有多模态数据（视频、音频和上下文），并标注了三元效价和离散情感标签，并使用VideoGPT生成的上下文元数据和人工标注的动作线索进行了丰富。我们还提出了用于多模态上下文感知群体情感识别的上下文感知群体情感识别网络（CAGNet）。CAGNet在GAViD上实现了63.20%的测试准确率，与最先进的性能相当。数据集和代码可在github.com/deepakkumar-iitr/GAViD上找到。

🔬 方法详解

问题定义：论文旨在解决在真实场景下，由于缺乏大规模多模态标注数据集，以及情境和行为可变性带来的复杂性，导致群体情感识别困难的问题。现有方法难以有效捕捉人际互动、情境影响和行为线索之间的复杂关系，从而限制了群体情感识别的准确性。

核心思路：论文的核心思路是构建一个大规模、多模态的群体情感数据集GAViD，并设计一个能够有效利用多模态数据和上下文信息的模型CAGNet。通过GAViD数据集提供丰富的训练数据，CAGNet模型能够学习到更鲁棒和准确的群体情感表示。

技术框架：CAGNet模型的整体架构包含以下几个主要模块：1) 多模态特征提取模块：分别从视频、音频和文本（上下文信息）中提取特征。2) 特征融合模块：将不同模态的特征进行融合，得到多模态融合特征。3) 上下文感知模块：利用上下文信息对融合特征进行调整，以更好地捕捉情境对情感的影响。4) 情感分类模块：根据调整后的特征，预测群体情感标签。

关键创新：论文的关键创新在于：1) 构建了大规模多模态群体情感数据集GAViD，为相关研究提供了宝贵的数据资源。2) 提出了上下文感知群体情感识别网络CAGNet，能够有效利用多模态数据和上下文信息进行情感识别。3) 使用VideoGPT生成上下文元数据，并进行人工标注动作线索，丰富了数据集的信息。

关键设计：关于CAGNet的关键设计细节，论文中没有详细说明具体的参数设置、损失函数和网络结构。但可以推测，特征提取模块可能采用预训练的视觉和语音模型，特征融合模块可能采用注意力机制或简单的拼接操作，上下文感知模块可能采用循环神经网络或Transformer结构，情感分类模块可能采用全连接层和Softmax函数。损失函数可能采用交叉熵损失函数。

🖼️ 关键图片

📊 实验亮点

CAGNet模型在GAViD数据集上取得了63.20%的测试准确率，与当前最先进的方法性能相当。该结果表明，GAViD数据集的质量较高，CAGNet模型能够有效利用多模态数据和上下文信息进行群体情感识别。此外，GAViD数据集的发布将促进群体情感识别领域的研究进展。

🎯 应用场景

该研究成果可应用于社交机器人、智能监控、在线教育等领域。例如，社交机器人可以利用群体情感识别技术更好地理解人类的情感状态，从而做出更自然和恰当的反应。智能监控系统可以利用该技术检测异常群体行为，及时发出预警。在线教育平台可以利用该技术评估学生的学习状态，提供个性化的教学服务。未来，该技术有望在人机交互、社会安全等领域发挥更大的作用。

📄 摘要（原文）

Understanding affective dynamics in real-world social systems is fundamental to modeling and analyzing human-human interactions in complex environments. Group affect emerges from intertwined human-human interactions, contextual influences, and behavioral cues, making its quantitative modeling a challenging computational social systems problem. However, computational modeling of group affect in in-the-wild scenarios remains challenging due to limited large-scale annotated datasets and the inherent complexity of multimodal social interactions shaped by contextual and behavioral variability. The lack of comprehensive datasets annotated with multimodal and contextual information further limits advances in the field. To address this, we introduce the Group Affect from ViDeos (GAViD) dataset, comprising 5091 video clips with multimodal data (video, audio and context), annotated with ternary valence and discrete emotion labels and enriched with VideoGPT-generated contextual metadata and human-annotated action cues. We also present Context-Aware Group Affect Recognition Network (CAGNet) for multimodal context-aware group affect recognition. CAGNet achieves 63.20\% test accuracy on GAViD, comparable to state-of-the-art performance. The dataset and code are available at github.com/deepakkumar-iitr/GAViD.

GAViD: A Large-Scale Multimodal Dataset for Context-Aware Group Affect Recognition from Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理