MObyGaze: a film dataset of multimodal objectification densely annotated by experts

📄 arXiv: 2505.22084v1 📥 PDF

作者: Julie Tores, Elisa Ancarani, Lucile Sassatelli, Hui-Yin Wu, Clement Bergman, Lea Andolfi, Victor Ecrement, Remy Sun, Frederic Precioso, Thierry Devars, Magali Guaresi, Virginie Julliard, Sarah Lecossais

分类: cs.CV

发布日期: 2025-05-28


💡 一句话要点

提出MObyGaze电影数据集,用于多模态物体化行为分析与量化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 物体化分析 多模态学习 电影数据集 性别平等 视听内容分析

📋 核心要点

  1. 现有方法难以有效识别和量化视听内容中复杂的物体化现象,阻碍了对性别刻板印象的深入分析。
  2. MObyGaze数据集通过专家标注,提供多模态(视觉、语音、音频)信息,并定义了结构化的物体化概念体系,为AI分析奠定基础。
  3. 论文验证了利用现有视觉、文本和音频模型解决物体化分析任务的可行性,并为未来研究提供了基准和方向。

📝 摘要(中文)

本文旨在刻画和量化视听内容中性别表征的差异,从而理解屏幕上刻板印象的持续存在。文章关注物体化这一高级概念,并向机器学习社区引入一个新的AI任务:刻画和量化电影中产生物体化的复杂多模态(视觉、语音、音频)时间模式。基于电影研究和心理学,作者构建了一个结构化的物体化术语表,包含5个子概念,通过跨越3种模态的11个概念来体现。文章提出了多模态物体化凝视(MObyGaze)数据集,包含20部电影,由专家密集标注物体化程度和自由划分片段上的概念,共计43小时视频的6072个片段,具有细粒度的定位和分类。文章提出了不同的学习任务,探索了从少量标注者之间的多样性标签中学习的最佳方法,并对最新的视觉、文本和音频模型进行了基准测试,证明了该任务的可行性。代码和数据集已公开。

🔬 方法详解

问题定义:论文旨在解决电影等视听内容中物体化现象的自动识别与量化问题。现有方法主要依赖人工分析,效率低且主观性强。缺乏大规模、多模态、细粒度标注的数据集,使得机器学习模型难以有效学习和泛化,无法准确捕捉物体化的复杂表现形式。

核心思路:论文的核心思路是构建一个高质量的多模态数据集,并基于此数据集探索利用机器学习模型自动识别和量化物体化现象的方法。通过专家标注,提供细粒度的物体化程度和概念标签,并结合视觉、语音和音频信息,使模型能够学习到物体化的多模态特征表示。

技术框架:MObyGaze数据集的构建流程包括:1) 选取20部电影;2) 定义物体化概念体系,包含5个子概念和11个概念,涵盖视觉、语音和音频三种模态;3) 招募专家进行密集标注,标注物体化程度和概念,并自由划分片段;4) 数据集以Croissant格式发布,方便社区使用。论文还提出了不同的学习任务,并对现有的视觉、文本和音频模型进行了基准测试。

关键创新:该论文的关键创新在于构建了首个大规模、多模态、细粒度标注的物体化电影数据集MObyGaze。该数据集不仅提供了丰富的标注信息,还定义了结构化的物体化概念体系,为AI分析提供了明确的目标和指导。此外,论文还探索了从少量标注者之间的多样性标签中学习的方法,提高了模型的鲁棒性。

关键设计:物体化概念体系的设计是关键。论文基于电影研究和心理学,定义了5个子概念(例如:身体部位聚焦、性暗示行为等)和11个概念,涵盖视觉、语音和音频三种模态。标注过程中,专家需要对每个片段进行物体化程度的评分,并标注相关的概念。论文还探索了不同的损失函数和模型结构,以适应多模态数据的特点和标注的多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建的MObyGaze数据集包含43小时视频的6072个片段,由专家密集标注。实验结果表明,现有的视觉、文本和音频模型在物体化分析任务上具有一定的可行性,但仍有提升空间。论文还探索了从少量标注者之间的多样性标签中学习的方法,并为未来的研究提供了基准。

🎯 应用场景

该研究成果可应用于媒体内容分析、性别平等研究、AI伦理等领域。通过自动识别和量化视听内容中的物体化现象,可以帮助媒体从业者更好地理解和避免性别歧视,促进性别平等。同时,该数据集和方法也为AI伦理研究提供了重要的资源和工具,有助于开发更加公平和负责任的AI系统。

📄 摘要(原文)

Characterizing and quantifying gender representation disparities in audiovisual storytelling contents is necessary to grasp how stereotypes may perpetuate on screen. In this article, we consider the high-level construct of objectification and introduce a new AI task to the ML community: characterize and quantify complex multimodal (visual, speech, audio) temporal patterns producing objectification in films. Building on film studies and psychology, we define the construct of objectification in a structured thesaurus involving 5 sub-constructs manifesting through 11 concepts spanning 3 modalities. We introduce the Multimodal Objectifying Gaze (MObyGaze) dataset, made of 20 movies annotated densely by experts for objectification levels and concepts over freely delimited segments: it amounts to 6072 segments over 43 hours of video with fine-grained localization and categorization. We formulate different learning tasks, propose and investigate best ways to learn from the diversity of labels among a low number of annotators, and benchmark recent vision, text and audio models, showing the feasibility of the task. We make our code and our dataset available to the community and described in the Croissant format: https://anonymous.4open.science/r/MObyGaze-F600/.