EgoNormia: Benchmarking Physical Social Norm Understanding

📄 arXiv: 2502.20490v5 📥 PDF

作者: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-02-27 (更新: 2025-06-11)

备注: V4, fixes to title and formatting


💡 一句话要点

提出EgoNormia以评估物理社交规范理解能力

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 自我中心视频 社交规范理解 视觉语言模型 多项选择题生成 安全隐私风险

📋 核心要点

  1. 现有的视觉语言模型在理解物理和社交规范方面存在显著不足,尤其是在实际应用中可能导致安全和隐私风险。
  2. 论文提出了EGONORMIA数据集,通过自我中心视频生成多项选择题,以评估和提升VLM的规范推理能力。
  3. 实验结果显示,当前最先进的VLM在EGONORMIA上仅得54%的分数,使用RAG方法后,规范推理能力有所提升。

📝 摘要(中文)

人类活动受到规范的调节,但对规范推理的监督相对稀缺,尤其是在物理或社会基础上。因此,我们提出了EGONORMIA,包含1853个基于人际互动的自我中心视频的多项选择题,旨在评估和提升视觉语言模型(VLMs)的规范推理能力。EGONORMIA涵盖安全、隐私、亲密距离、礼貌、合作、协调/主动性和沟通/可读性七个规范类别。我们提出了一种新颖的管道,从原始自我中心视频生成有依据的多项选择题。我们的研究表明,当前最先进的VLM在规范理解方面表现不佳,EGONORMIA的最高得分为54%,EGONORMIA-verified为65%,在各个规范类别中的表现显示出在实际应用中存在安全和隐私的重大风险。此外,我们探索了改善规范理解的方法,证明了使用EGONORMIA的简单检索生成(RAG)方法可以增强VLM的规范推理能力。

🔬 方法详解

问题定义:本研究旨在解决当前视觉语言模型在理解物理和社交规范方面的不足,尤其是在实际应用中可能导致的安全和隐私风险。现有方法缺乏针对规范推理的有效监督,导致模型在真实场景中的表现不佳。

核心思路:论文提出EGONORMIA数据集,通过自我中心视频生成有依据的多项选择题,旨在为视觉语言模型提供丰富的规范推理训练数据,从而提升其在规范理解方面的能力。

技术框架:整体架构包括数据收集、视频处理、问题生成和模型评估四个主要模块。首先,从自我中心视频中提取人际互动信息,然后生成相应的多项选择题,最后通过评估模型在EGONORMIA上的表现来验证其有效性。

关键创新:最重要的技术创新在于提出了一种新颖的管道,能够从原始自我中心视频中自动生成有依据的多项选择题。这一方法与现有的手动标注或简单生成方法有本质区别,能够大规模生成高质量的训练数据。

关键设计:在数据生成过程中,设计了特定的参数设置和损失函数,以确保生成的问题能够有效反映视频中的社交规范。同时,采用了检索生成(RAG)方法来提升模型的规范推理能力。该方法的设计考虑了模型在不同规范类别中的表现差异。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果显示,当前最先进的视觉语言模型在EGONORMIA数据集上的最高得分仅为54%,而在EGONORMIA-verified上得分为65%。通过使用简单的检索生成方法,模型的规范推理能力得到了显著提升,表明该方法在改善模型性能方面具有潜力。

🎯 应用场景

该研究的潜在应用领域包括智能助手、社交机器人和自动驾驶等,需要理解人类社交行为和规范的场景。通过提升视觉语言模型的规范理解能力,可以在实际应用中减少安全和隐私风险,增强人机交互的自然性和安全性。未来,这一研究可能推动更智能的交互系统的发展。

📄 摘要(原文)

Human activity is moderated by norms; however, supervision for normative reasoning is sparse, particularly where norms are physically- or socially-grounded. We thus present EGONORMIA $\|ε\|$, comprising 1,853 (200 for EGONORMIA-verified) multiple choice questions (MCQs) grounded within egocentric videos of human interactions, enabling the evaluation and improvement of normative reasoning in vision-language models (VLMs). EGONORMIA spans seven norm categories: safety, privacy, proxemics, politeness, cooperation, coordination/proactivity, and communication/legibility. To compile this dataset at scale, we propose a novel pipeline to generate grounded MCQs from raw egocentric video. Our work demonstrates that current state-of-the-art VLMs lack robust grounded norm understanding, scoring a maximum of 54% on EGONORMIA and 65% on EGONORMIA-verified, with performance across norm categories indicating significant risks of safety and privacy when VLMs are used in real-world agents. We additionally explore methods for improving normative understanding, demonstrating that a naive retrieval-based generation (RAG) method using EGONORMIA can enhance normative reasoning in VLMs.