Can MLLMs Read the Room? A Multimodal Benchmark for Verifying Truthfulness in Multi-Party Social Interactions

作者: Caixin Kang, Yifei Huang, Liangyang Ouyang, Mingfang Zhang, Yoichi Sato

分类: cs.CV, cs.CL, cs.SI

发布日期: 2025-10-31 (更新: 2025-11-04)

备注: ICCV2025 Workshop

💡 一句话要点

提出MIVA基准，评估多模态大语言模型在多人社交互动中识别真伪的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 真伪识别 社交智能 大语言模型 狼人杀 多方对话 视觉线索

📋 核心要点

现有方法难以在动态多人对话中进行欺骗检测，缺乏对语言和非语言线索的有效融合。
提出多模态交互式真伪评估（MIVA）任务，并构建基于“狼人杀”游戏的多模态数据集。
实验表明，即使是GPT-4o等先进MLLM也难以可靠区分真假，存在显著性能差距。

📝 摘要（中文）

随着人工智能系统日益融入人类生活，赋予它们强大的社交智能已成为一个关键前沿。这种智能的一个关键方面是辨别真伪，这是人类互动中普遍存在的要素，通过口头语言和非语言视觉线索的复杂相互作用来传达。然而，在动态的多方对话中自动进行欺骗检测仍然是一个重大挑战。最近强大的多模态大语言模型（MLLM）的兴起，凭借其在视觉和文本理解方面的卓越能力，使其成为这项任务的天然候选者。因此，它们在这个关键领域的能力在很大程度上是未量化的。为了弥补这一差距，我们引入了一项新任务，即多模态交互式真伪评估（MIVA），并提出了一个从社交推理游戏“狼人杀”中衍生出的新型多模态数据集。该数据集为每个陈述提供同步的视频、文本以及可验证的真实标签。我们建立了一个全面的基准，评估最先进的MLLM，揭示了一个显著的性能差距：即使是像GPT-4o这样强大的模型也难以可靠地区分真假。我们对失败模式的分析表明，这些模型未能有效地将语言与视觉社交线索联系起来，并且在对齐方面可能过于保守，突显了迫切需要新的方法来构建更具洞察力和值得信赖的AI系统。

🔬 方法详解

问题定义：论文旨在解决多方社交互动场景下的真伪识别问题，即判断参与者陈述的真实性。现有方法在处理动态、多模态的社交互动时，难以有效融合语言信息和视觉线索（如面部表情、肢体语言），导致欺骗检测的准确率不高。此外，缺乏高质量的、带有明确真伪标签的多模态数据集，也限制了相关研究的进展。

核心思路：论文的核心思路是利用多模态大语言模型（MLLM）强大的视觉和文本理解能力，通过分析参与者的语言陈述和非语言行为，来判断其陈述的真实性。论文认为，欺骗行为往往伴随着特定的语言模式和视觉线索，MLLM可以通过学习这些模式和线索，提高真伪识别的准确率。同时，论文构建了一个新的多模态数据集，为MLLM的训练和评估提供了数据基础。

技术框架：论文的技术框架主要包括两个部分：一是多模态数据集的构建，二是MLLM的评估。数据集构建方面，论文从“狼人杀”游戏中提取数据，包括参与者的语音、视频和文本记录，并标注每个陈述的真伪标签。MLLM评估方面，论文选取了多个先进的MLLM模型，包括GPT-4o等，在构建的数据集上进行测试，并分析其性能表现。

关键创新：论文的关键创新在于提出了多模态交互式真伪评估（MIVA）任务，并构建了相应的多模态数据集。该任务和数据集为研究MLLM在社交互动中的真伪识别能力提供了一个新的平台。此外，论文还对现有MLLM的性能进行了全面的评估，揭示了其在真伪识别方面的不足，为未来的研究方向提供了指导。

关键设计：数据集的关键设计在于其来源于“狼人杀”游戏，保证了数据的多样性和真实性。同时，数据集包含了同步的视频、文本和语音信息，以及可验证的真伪标签，为MLLM的学习提供了丰富的信息。评估方面，论文设计了多种评估指标，包括准确率、召回率等，以全面评估MLLM的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是像GPT-4o这样强大的MLLM，在MIVA数据集上的真伪识别准确率仍然较低，远低于人类水平。这表明现有MLLM在理解和融合多模态社交线索方面存在显著不足。论文还分析了MLLM的失败模式，发现其难以有效地将语言与视觉社交线索联系起来，并且在对齐方面可能过于保守。

🎯 应用场景

该研究成果可应用于多个领域，例如在线会议、远程教育、招聘面试等场景，帮助识别虚假信息，提高沟通效率和信任度。此外，该研究还可以用于安全领域，例如检测诈骗行为、识别犯罪嫌疑人等，具有重要的社会价值和应用前景。未来，该研究可以进一步扩展到更复杂的社交互动场景，例如谈判、辩论等。

📄 摘要（原文）

As AI systems become increasingly integrated into human lives, endowing them with robust social intelligence has emerged as a critical frontier. A key aspect of this intelligence is discerning truth from deception, a ubiquitous element of human interaction that is conveyed through a complex interplay of verbal language and non-verbal visual cues. However, automatic deception detection in dynamic, multi-party conversations remains a significant challenge. The recent rise of powerful Multimodal Large Language Models (MLLMs), with their impressive abilities in visual and textual understanding, makes them natural candidates for this task. Consequently, their capabilities in this crucial domain are mostly unquantified. To address this gap, we introduce a new task, Multimodal Interactive Veracity Assessment (MIVA), and present a novel multimodal dataset derived from the social deduction game Werewolf. This dataset provides synchronized video, text, with verifiable ground-truth labels for every statement. We establish a comprehensive benchmark evaluating state-of-the-art MLLMs, revealing a significant performance gap: even powerful models like GPT-4o struggle to distinguish truth from falsehood reliably. Our analysis of failure modes indicates that these models fail to ground language in visual social cues effectively and may be overly conservative in their alignment, highlighting the urgent need for novel approaches to building more perceptive and trustworthy AI systems.

Can MLLMs Read the Room? A Multimodal Benchmark for Verifying Truthfulness in Multi-Party Social Interactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理