SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

作者: Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji

分类: cs.AI

发布日期: 2026-03-17

备注: Code is available at https://github.com/MAC-AutoML/SocialOmni and dataset is available at https://huggingface.co/datasets/alexisty/SocialOmni

💡 一句话要点

SocialOmni：提出用于评估Omni模型在音视频社交互动能力的基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 全模态大语言模型 人机交互 社交互动 基准测试 音视频分析

📋 核心要点

现有全模态大语言模型基准测试缺乏对社交互动能力的有效评估，无法衡量模型在真实对话场景中的表现。
SocialOmni基准通过说话人识别、中断时机控制和自然中断生成三个维度，全面评估模型的对话互动能力。
实验结果表明，现有模型在感知准确性和交互生成能力之间存在脱钩，SocialOmni可为未来模型改进提供指导。

📝 摘要（中文）

全模态大语言模型(OLMs)通过原生集成音频、视觉和文本，重新定义了人机交互。然而，现有的OLM基准测试仍然侧重于静态的、以准确性为中心的任务，在评估社交互动性这一关键能力方面存在差距，社交互动性是指在自然对话中驾驭动态线索的基本能力。为此，我们提出了SocialOmni，这是一个综合性的基准，用于评估跨三个核心维度的对话互动性：(i)说话人分离和识别(谁在说话)，(ii)中断时机控制(何时插入)，以及(iii)自然中断生成(如何措辞中断)。SocialOmni包含2000个感知样本和一个质量控制的诊断集，包含209个具有严格时间和上下文约束的交互生成实例，并辅以受控的音视频不一致场景，以测试模型的鲁棒性。我们对12个领先的OLM进行了基准测试，揭示了不同模型在社交互动能力方面的显著差异。此外，我们的分析表明，模型的感知准确性和生成上下文适当中断的能力之间存在明显的脱钩，表明仅以理解为中心的指标不足以表征对话社交能力。更令人鼓舞的是，来自SocialOmni的这些诊断为弥合未来OLM中的感知-交互鸿沟提供了可操作的信号。

🔬 方法详解

问题定义：现有全模态大语言模型(OLMs)的评测基准主要关注静态任务的准确性，忽略了模型在动态对话场景中的社交互动能力，例如理解说话人身份、判断合适的中断时机以及生成自然的中断语句。现有方法难以有效评估模型在真实人机交互中的表现，限制了OLM在社交场景中的应用。

核心思路：SocialOmni的核心思路是构建一个综合性的基准测试，通过模拟真实的对话场景，从感知（说话人识别）和生成（中断时机和内容）两个方面评估OLM的社交互动能力。该基准旨在揭示模型在理解和生成社交线索方面的不足，并为未来的模型改进提供指导。

技术框架：SocialOmni基准包含两个主要部分：感知样本和交互生成实例。感知样本用于评估模型在说话人分离和识别方面的能力。交互生成实例包含具有严格时间和上下文约束的对话场景，用于评估模型在中断时机控制和自然中断生成方面的能力。此外，该基准还包含受控的音视频不一致场景，用于测试模型的鲁棒性。整个框架旨在全面评估OLM在社交互动中的各项能力。

关键创新：SocialOmni的关键创新在于其对社交互动能力的全面评估，包括说话人识别、中断时机控制和自然中断生成三个维度。与现有基准相比，SocialOmni更关注模型在动态对话场景中的表现，并提供了更细粒度的评估指标。此外，该基准还引入了音视频不一致场景，用于测试模型的鲁棒性。

关键设计：SocialOmni的交互生成实例设计了严格的时间和上下文约束，以确保评估的准确性和可靠性。例如，中断时机必须符合对话的逻辑和流程，中断内容必须与上下文相关。此外，该基准还采用了质量控制机制，以确保数据的质量和一致性。具体的参数设置和网络结构取决于被评估的OLM模型。

🖼️ 关键图片

📊 实验亮点

SocialOmni基准测试了12个领先的OLM，结果表明不同模型在社交互动能力方面存在显著差异。分析还揭示了模型的感知准确性和生成上下文适当中断的能力之间存在脱钩现象，表明仅以理解为中心的指标不足以表征对话社交能力。SocialOmni的诊断结果为弥合未来OLM中的感知-交互鸿沟提供了可操作的信号。

🎯 应用场景

SocialOmni的研究成果可应用于开发更自然、更智能的人机交互系统，例如智能助手、社交机器人和虚拟会议系统。通过提高模型在社交互动方面的能力，可以改善用户体验，并促进人与机器之间的更有效沟通。未来，该研究还可以扩展到更复杂的社交场景，例如群体对话和跨文化交流。

📄 摘要（原文）

Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理