EgoSocial: Benchmarking Proactive Intervention Ability of Omnimodal LLMs via Egocentric Social Interaction Perception

📄 arXiv: 2510.13105v1 📥 PDF

作者: Xijun Wang, Tanay Sharma, Achin Kulshrestha, Abhimitra Meka, Aveek Purohit, Dinesh Manocha

分类: cs.CV

发布日期: 2025-10-15


💡 一句话要点

EgoSocial:通过第一人称视角社交互动感知,评估多模态LLM的主动干预能力

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 第一人称视角 社交互动 多模态学习 大型语言模型 干预时机检测 社交思维图 AR/VR

📋 核心要点

  1. 现有LLM缺乏在社交互动中判断何时进行干预的社交意识,导致不恰当的响应,影响用户体验。
  2. 提出EgoSoD方法,通过整合多模态信息构建社交思维图,动态建模参与者和互动,从而主动检测干预时机。
  3. EgoSoD在干预时机和整体社交互动性能上显著优于现有OLLM,例如在干预时机上,相比Gemini 2.5 Pro提升了9.9%。

📝 摘要(中文)

随着AR/VR技术日益融入日常生活,对能够从第一人称视角理解人类社交动态的AI需求日益增长。然而,现有的LLM通常缺乏在AI助手场景下判断何时进行干预的社交意识。这导致持续且缺乏社交意识的响应,可能会扰乱自然对话并对用户注意力产生负面影响。为了解决这些局限性,我们引入了EgoSocial,一个大规模的第一人称视角数据集,包含13,500个社交视频-问题对,专门用于评估社交互动感知中的干预时机。我们还对当前的多模态LLM(OLLM)进行了深入分析,以评估它们在检测各种社交上下文线索方面的有效性。实验表明,OLLM在检测干预时机方面仍然存在困难(Gemini 2.5 Pro的准确率为14.4%)。我们还提出了EgoSoD(EgoSocial Detection),一种用于稳健地辨别社交动态的端到端方法。在我们的OLLM分析的指导下,EgoSoD将多模态上下文线索(例如,音频和视觉线索)集成到社交思维图中,动态地建模参与者和互动。我们的方法主动检测干预时机和社交互动,精确地确定何时进行干预。我们的EgoSoD在干预时机性能方面将Phi-4提高了45.6%,将Gemini 2.5 Pro提高了9.9%,在整体社交互动性能方面将Phi-4提高了20.4%,将Gemini 2.5 Pro提高了6.9%。我们将很快发布数据集和代码。

🔬 方法详解

问题定义:论文旨在解决在第一人称视角的社交互动中,现有大型语言模型(LLM)无法准确判断何时进行干预的问题。现有方法的痛点在于缺乏对社交上下文的充分理解,导致不合时宜的干预,影响用户体验。

核心思路:论文的核心思路是利用多模态信息(包括视觉和听觉线索)构建一个社交思维图,动态地建模参与者之间的关系和互动。通过分析这个社交思维图,模型可以更准确地判断何时进行干预是合适的。

技术框架:EgoSoD方法的整体框架是一个端到端的系统,包括以下几个主要模块:1) 多模态特征提取:从视频和音频中提取相关的特征。2) 社交思维图构建:利用提取的特征构建一个动态的社交思维图,节点代表参与者,边代表他们之间的互动关系。3) 干预时机检测:基于社交思维图,模型预测何时进行干预是最佳时机。

关键创新:该方法最重要的创新点在于将多模态信息融入到社交思维图中,从而能够更全面地理解社交上下文。与现有方法相比,EgoSoD不仅考虑了视觉信息,还考虑了听觉信息,并且能够动态地建模参与者之间的关系。

关键设计:论文中关键的设计包括:1) 使用Transformer网络提取视频和音频特征。2) 使用图神经网络(GNN)在社交思维图上进行推理。3) 设计了一个损失函数,用于优化干预时机预测的准确性。具体参数设置和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EgoSoD方法在EgoSocial数据集上取得了显著的性能提升。在干预时机预测方面,EgoSoD相比Phi-4提升了45.6%,相比Gemini 2.5 Pro提升了9.9%。在整体社交互动性能方面,EgoSoD相比Phi-4提升了20.4%,相比Gemini 2.5 Pro提升了6.9%。这些结果表明EgoSoD能够更准确地理解社交上下文,并做出更合理的干预决策。

🎯 应用场景

该研究成果可应用于AR/VR环境中的智能助手,使其能够更好地理解用户的社交互动,并在合适的时机提供帮助或建议,从而提升用户体验。此外,该技术还可用于社交机器人、在线教育等领域,实现更自然、更智能的人机交互。

📄 摘要(原文)

As AR/VR technologies become integral to daily life, there's a growing need for AI that understands human social dynamics from an egocentric perspective. However, current LLMs often lack the social awareness to discern when to intervene as AI assistant. This leads to constant, socially unaware responses that may disrupt natural conversation and negatively impact user focus. To address these limitations, we introduce EgoSocial, a large-scale egocentric dataset with 13,500 social video-question pairs, specifically designed to benchmark intervention in social interaction perception. We also present an in-depth analysis of current omnimodal LLMs (OLLMs) to assess their effectiveness in detecting diverse social contextual cues. Experiments show that OLLMs still struggle to detect the intervention timing (14.4% for Gemini 2.5 Pro). We also propose EgoSoD (EgoSocial Detection), an end-to-end method for robustly discerning social dynamics. Informed by our OLLM analysis, EgoSoD integrates multimodal contextual cues (e.g., audio and visual cues) into a social thinking graph, dynamically modeling participants and interactions. Our method proactively detects intervention timing and social interactions, precisely determining when to intervene. Our EgoSoD improves Phi-4 by 45.6% and Gemini 2.5 Pro by 9.9% on Intervention Timing performance, and improves Phi-4 by 20.4% and Gemini 2.5 Pro by 6.9% on overall Social Interaction performance. We will release the dataset and code soon.