GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions
作者: Junho Kim, Xu Cao, Houze Yang, Bikram Boote, Ana Jojic, Fiona Ryan, Bolin Lai, Sangmin Lee, James M. Rehg
分类: cs.CV, cs.AI
发布日期: 2026-05-15
备注: Project page: https://social-reaoning.github.io/grasp/
💡 一句话要点
GRASP:学习在多人非语言互动中进行社会推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社会推理 多模态学习 非语言互动 注视估计 手势识别
📋 核心要点
- 现有的多模态大型语言模型在理解多人视频中的社会互动关系时,难以有效识别互动对象。
- 论文提出GRASP数据集和社会基础奖励(SGR)学习信号,利用细粒度的注视和手势信息来提升模型社会推理能力。
- 实验表明,SGR能有效提升模型在GRASP-Bench上的性能,并保持在其他社会视频问答基准上的零样本表现。
📝 摘要(中文)
理解社会互动需要对微妙的非语言线索进行推理,但目前的多模态大型语言模型(MLLM)通常无法识别多人视频中谁与谁互动。我们推出了GRASP,一个大规模的社会推理数据集,它将高层次的社会问答与细粒度的注视和指示性手势事件联系起来。GRASP包含超过46K个视频(总计749小时)的29万个问答对,这些问答对按照一个包含注视、手势和联合注视-手势推理的16个类别的分类法进行组织,并提供GRASP-Bench用于评估。与之前侧重于孤立线索或高层次社会问答的资源不同,GRASP将问题构建为身份一致的注视轨迹、指示性手势及其到社会事件的联合组合。此外,我们提出了社会基础奖励(SGR),一种学习信号,它使用这些社会事件来鼓励模型推理每个互动中涉及的参与者。实验表明,SGR提高了GRASP-Bench的性能,同时保持了在相关社会视频问答基准上的零样本性能。
🔬 方法详解
问题定义:现有的多模态大型语言模型在理解多人视频中的社会互动时,难以准确识别参与者之间的互动关系。它们通常无法有效利用视频中细粒度的非语言线索,如注视方向和指示性手势,来进行社会推理。这导致模型在回答关于视频中人物互动的问题时表现不佳。
核心思路:论文的核心思路是构建一个大规模的社会推理数据集GRASP,该数据集包含细粒度的注视和手势信息,并将这些信息与高层次的社会问答联系起来。同时,论文提出了社会基础奖励(SGR),利用这些细粒度的社会事件来引导模型学习参与者之间的互动关系,从而提升模型的社会推理能力。
技术框架:GRASP数据集包含46K个视频,总计749小时,以及29万个问答对。这些问答对按照16个类别的分类法进行组织,涵盖注视、手势以及联合注视-手势推理。GRASP-Bench用于评估模型在GRASP数据集上的性能。SGR作为一种学习信号,被用于训练模型,鼓励模型关注视频中的社会事件,并推理参与者之间的互动关系。
关键创新:论文的关键创新在于构建了GRASP数据集,该数据集将高层次的社会问答与细粒度的注视和指示性手势事件联系起来,为模型提供了更丰富的社会推理信息。此外,SGR利用这些细粒度的社会事件来引导模型学习,是一种新颖的社会推理学习方法。
关键设计:GRASP数据集中的问题构建基于身份一致的注视轨迹、指示性手势及其到社会事件的联合组合。SGR的设计目标是鼓励模型关注视频中的社会事件,并推理参与者之间的互动关系。具体的实现细节(如损失函数、网络结构等)在论文中可能没有详细描述,属于未知信息。
📊 实验亮点
实验结果表明,使用SGR训练的模型在GRASP-Bench上取得了显著的性能提升,同时保持了在其他社会视频问答基准上的零样本性能。这表明SGR能够有效提升模型的社会推理能力,并且具有一定的泛化能力。具体的性能数据和提升幅度在论文中应该有详细的呈现,但这里无法给出具体数值。
🎯 应用场景
该研究成果可应用于智能监控、人机交互、社交机器人等领域。通过提升机器对人类社会互动的理解能力,可以实现更智能的监控系统,更自然的人机交互体验,以及更具社会适应性的机器人。
📄 摘要(原文)
Understanding social interactions requires reasoning over subtle non-verbal cues, yet current multimodal large language models (MLLMs) often fail to identify who interacts with whom in multi-person videos. We introduce GRASP, a large-scale social reasoning dataset that connects high-level social QA with fine-grained gaze and deictic gesture events. GRASP contains 290K question--answer pairs over 46K videos totaling 749 hours, organized by a 16-category taxonomy spanning gaze, gesture, and joint gaze--gesture reasoning, together with GRASP-Bench for evaluation. Unlike prior resources that focus on either isolated cues or high-level social QA, GRASP builds questions from identity-consistent gaze trajectories, deictic gestures, and their joint compositions into social events. Moreover, we propose Social Grounding Reward (SGR), a learning signal that uses these social events to encourage models to reason about the participants involved in each interaction. Experiments show that SGR improves performance on GRASP-Bench while maintaining zero-shot performance on related social video QA benchmarks.