Language-Instructed Reasoning for Group Activity Detection via Multimodal Large Language Model

📄 arXiv: 2509.16054v2 📥 PDF

作者: Jihua Peng, Qianxiong Xu, Yichen Liu, Chenxi Liu, Cheng Long, Rui Zhao, Ziyue Li

分类: cs.CV

发布日期: 2025-09-19 (更新: 2025-12-05)

备注: This work is being incorporated into a larger study


💡 一句话要点

提出LIR-GAD,利用多模态大语言模型进行语言指导的群体活动检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 群体活动检测 多模态大语言模型 语言指导 语义推理 视觉语言融合

📋 核心要点

  1. 现有群体活动检测方法依赖视觉特征的隐式模式识别,缺乏上下文推理和可解释性。
  2. LIR-GAD利用多模态大语言模型,通过引入特定token和语言指令,增强语义理解和表示能力。
  3. 实验结果表明,LIR-GAD在群体活动检测任务中表现优异,显著提升了性能。

📝 摘要(中文)

群体活动检测(GAD)旨在视频序列中同时识别群体成员并对他们的集体活动进行分类。现有的基于深度学习的方法开发了专门的架构(例如,Transformer网络)来建模个体角色的动态以及个体和群体之间的语义依赖关系。然而,它们仅仅依赖于视觉特征的隐式模式识别,并且难以进行上下文推理和解释。本文提出了LIR-GAD,这是一种新颖的语言指导推理框架,通过多模态大语言模型(MLLM)进行GAD。我们的方法通过引入活动级别的 token和多个特定于集群的 token来扩展MLLM的原始词汇表。我们处理视频帧以及两个专门设计的token和语言指令,然后将其集成到MLLM中。MLLM中嵌入的预训练常识知识使 token和 token能够有效地捕获集体活动的语义信息,并分别学习不同组的独特表示特征。此外,我们引入了多标签分类损失,以进一步增强 token学习判别语义表示的能力。然后,我们设计了一个多模态双重对齐融合(MDAF)模块,该模块将MLLM的隐藏嵌入(对应于设计的token)与视觉特征集成,从而显着提高GAD的性能。定量和定性实验都证明了我们提出的方法在GAD任务中的优越性能。

🔬 方法详解

问题定义:群体活动检测旨在识别视频中人群的集体活动,并确定参与者的身份。现有方法主要依赖于视觉特征,缺乏对场景上下文的理解和推理能力,导致识别准确率受限,且缺乏可解释性。

核心思路:利用多模态大语言模型(MLLM)的强大语义理解和推理能力,将视觉信息与语言指令相结合,引导模型学习群体活动的语义表示,从而提高检测精度和可解释性。通过引入特定token,将活动和群体信息显式地融入MLLM中。

技术框架:LIR-GAD框架主要包含以下几个模块:1) 视频帧和语言指令输入;2) MLLM处理,通过 token捕获活动和群体信息;3) 多标签分类损失,增强 token的语义表示能力;4) 多模态双重对齐融合(MDAF)模块,将MLLM的隐藏嵌入与视觉特征融合;5) 群体活动检测结果输出。

关键创新:1) 引入语言指导的群体活动检测方法,利用MLLM进行语义推理;2) 设计了活动级别的 token和集群特定的 token,扩展了MLLM的词汇表,使其能够更好地理解群体活动;3) 提出了多模态双重对齐融合(MDAF)模块,有效融合了MLLM的语义信息和视觉特征。

关键设计 token用于表示活动类别, token用于表示不同的群体。多标签分类损失用于优化 token的表示,使其能够区分不同的活动。MDAF模块通过注意力机制实现MLLM嵌入和视觉特征的对齐和融合。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LIR-GAD在群体活动检测任务上取得了显著的性能提升。定量实验表明,该方法在多个数据集上优于现有的深度学习方法。定性实验也验证了LIR-GAD能够更准确地识别群体活动,并提供更具解释性的结果。具体性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于智能视频监控、人群行为分析、社交活动理解等领域。例如,在安防监控中,可以自动识别异常群体活动,及时预警;在社交媒体分析中,可以理解用户参与的群体活动,进行个性化推荐。未来,该技术有望在智慧城市、智能交通等领域发挥重要作用。

📄 摘要(原文)

Group activity detection (GAD) aims to simultaneously identify group members and categorize their collective activities within video sequences. Existing deep learning-based methods develop specialized architectures (e.g., transformer networks) to model the dynamics of individual roles and semantic dependencies between individuals and groups. However, they rely solely on implicit pattern recognition from visual features and struggle with contextual reasoning and explainability. In this work, we propose LIR-GAD, a novel framework of language-instructed reasoning for GAD via Multimodal Large Language Model (MLLM). Our approach expand the original vocabulary of MLLM by introducing an activity-level token and multiple cluster-specific tokens. We process video frames alongside two specially designed tokens and language instructions, which are then integrated into the MLLM. The pretrained commonsense knowledge embedded in the MLLM enables the token and tokens to effectively capture the semantic information of collective activities and learn distinct representational features of different groups, respectively. Also, we introduce a multi-label classification loss to further enhance the token's ability to learn discriminative semantic representations. Then, we design a Multimodal Dual-Alignment Fusion (MDAF) module that integrates MLLM's hidden embeddings corresponding to the designed tokens with visual features, significantly enhancing the performance of GAD. Both quantitative and qualitative experiments demonstrate the superior performance of our proposed method in GAD taks.