Social Caption: Evaluating Social Understanding in Multimodal Models

📄 arXiv: 2601.14569v1 📥 PDF

作者: Bhaavanaa Thumu, Leena Mathur, Youssouf Kebe, Louis-Philippe Morency

分类: cs.CL, cs.LG

发布日期: 2026-01-21

备注: 24 pages


💡 一句话要点

提出Social Caption框架,评估多模态模型中的社会理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 社会理解 大型语言模型 人机交互 评估框架

📋 核心要点

  1. 多模态大型语言模型在理解人类社会互动方面面临挑战,缺乏有效的评估框架。
  2. Social Caption框架从社会推理、整体社会分析和定向社会分析三个维度评估模型。
  3. 实验分析了模型规模、架构设计和口语环境等因素对社会理解能力的影响,并探索了自动评估方法。

📝 摘要(中文)

本文提出了Social Caption框架,该框架基于交互理论,旨在评估多模态大型语言模型(MLLM)在社会理解方面的能力。该框架包含三个维度:社会推理(SI),即对交互进行准确推断的能力;整体社会分析(HSA),即生成对交互的全面描述的能力;定向社会分析(DSA),即从交互中提取相关社会信息的能力。本文还分析了影响模型社会理解性能的因素,例如模型规模、架构设计和口语环境。通过MLLM judges进行的实验,为多模态社会理解的自动评估提供了见解。

🔬 方法详解

问题定义:现有的多模态大型语言模型(MLLM)在理解人类社会互动方面存在不足,缺乏一个系统性的评估框架来衡量其社会理解能力。现有的评估方法可能无法全面捕捉社会互动的复杂性,并且难以针对特定社会理解维度进行评估。

核心思路:本文的核心思路是构建一个基于交互理论的评估框架,将社会理解能力分解为三个关键维度:社会推理(SI)、整体社会分析(HSA)和定向社会分析(DSA)。通过这三个维度,可以更全面、更细致地评估MLLM在理解社会互动方面的能力。

技术框架:Social Caption框架包含三个主要模块,分别对应于三个社会理解维度:SI模块评估模型对交互进行准确推断的能力;HSA模块评估模型生成对交互的全面描述的能力;DSA模块评估模型从交互中提取相关社会信息的能力。每个模块都包含一系列精心设计的评估任务和指标。评估过程涉及向MLLM提供多模态输入(例如,图像、视频和文本),并要求模型执行相应的任务,然后根据预定义的指标评估模型的输出。

关键创新:Social Caption框架的关键创新在于其基于交互理论的维度划分,这使得对MLLM社会理解能力的评估更加系统化和全面。此外,该框架还引入了MLLM judges的概念,探索了利用MLLM进行自动评估的可能性,从而降低了人工评估的成本和主观性。

关键设计:Social Caption框架的关键设计包括:(1)针对每个社会理解维度设计的具体评估任务,例如,SI模块可能包含推断人物关系的任务,HSA模块可能包含生成场景描述的任务,DSA模块可能包含提取特定社会属性的任务;(2)用于评估模型输出的指标,例如,准确率、召回率、F1值等;(3)MLLM judges的训练和评估方法,例如,使用少量人工标注数据微调MLLM,并评估其评估结果与人工标注的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Social Caption框架在评估多模态模型的社会理解能力方面取得了显著成果。实验表明,模型规模、架构设计和口语环境等因素对社会理解能力有重要影响。例如,更大的模型通常表现出更好的社会推理能力。此外,MLLM judges在自动评估方面展现出潜力,为大规模评估提供了新的途径。具体性能数据未知。

🎯 应用场景

该研究成果可应用于开发更具社会意识的AI系统,例如社交机器人、智能助手和情感分析工具。通过提升AI模型的社会理解能力,可以使其更好地理解人类行为、预测人类意图,并与人类进行更自然、更有效的互动。未来,该框架可用于评估和改进各种多模态模型,推动人机交互领域的发展。

📄 摘要(原文)

Social understanding abilities are crucial for multimodal large language models (MLLMs) to interpret human social interactions. We introduce Social Caption, a framework grounded in interaction theory to evaluate social understanding abilities of MLLMs along three dimensions: Social Inference (SI), the ability to make accurate inferences about interactions; Holistic Social Analysis (HSA), the ability to generate comprehensive descriptions of interactions; Directed Social Analysis (DSA), the ability to extract relevant social information from interactions. We analyze factors influencing model performance in social understanding, such as scale, architectural design, and spoken context. Experiments with MLLM judges contribute insights about scaling automated evaluation of multimodal social understanding.