QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents

📄 arXiv: 2605.27068v1 📥 PDF

作者: Ye Yuan, Rui Song, Weien Li, Zeyu Li, Haochen Liu, Xiangyu Kong, Changjiang Han, Yonghan Yang, Zichen Zhao, Zixuan Dong, Fuyuan Lyu, Bowei He, Haolun Wu, Jikun Kang, Xue Liu

分类: cs.CL, cs.AI, cs.MA

发布日期: 2026-05-26

🔗 代码/项目: GITHUB


💡 一句话要点

QUACK:多模态社交推理Agent中知识沟通的质询、理解与审计

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 社交推理 语言模型 Agent审计 幻觉检测

📋 核心要点

  1. 现有社交推理Agent评估主要依赖胜率,缺乏对其语言与感知行为一致性的细致审计。
  2. QUACK通过重建Agent的真实轨迹,并验证其语言声明,从而实现多模态社交推理的细粒度评估。
  3. 实验表明,即使是最先进的视觉语言模型Agent,在社交推理中仍存在显著的幻觉和无根据指责。

📝 摘要(中文)

社交推理游戏已成为探究大型语言模型(LLM)Agent的推理、欺骗、协调和信念建模的热门试验平台。然而,大多数环境仅通过胜率等游戏结果来评分,并且主要停留在纯文本交互,这使得难以判断Agent的语言是否真正基于其感知和行为,或者识别其行为背后的失败模式。为了解决这一差距,我们引入了QUACK,这是一个开源环境和评估框架,用于审计Agent语言在多模态社交推理中的基础。QUACK在三个层面对Agent进行评估:游戏结果、行为轨迹和话语级一致性。其核心的语句验证管道从引擎日志中重建每个Agent的真实轨迹,并检查每个讨论声明,自动标记空间幻觉、无根据的指责、欺骗崩溃和语言-行动不一致。在同构和跨模型对抗设置中评估三个前沿VLM后,我们发现即使是最强的Agent也会产生15.1%的可验证空间声明的幻觉,并且超过一半的指责没有实际证据支持。我们发布了完整的引擎、评估框架、工具包和日志。

🔬 方法详解

问题定义:现有社交推理Agent的评估方法主要关注游戏结果(如胜率),而忽略了Agent语言表达与其感知、行动之间的一致性。这导致我们难以理解Agent的推理过程,也无法有效识别Agent的失败模式,例如幻觉、无根据指责等。现有方法缺乏对Agent语言表达的细粒度审计能力。

核心思路:QUACK的核心思路是通过重建Agent在游戏中的真实轨迹,并将其语言表达与该轨迹进行比对,从而验证Agent的语言是否基于其感知和行动。这种方法能够有效地检测Agent的幻觉、无根据指责、欺骗崩溃以及语言-行动不一致等问题。通过这种审计,可以更深入地理解Agent的推理过程,并为改进Agent的设计提供指导。

技术框架:QUACK包含一个社交推理游戏环境和一个评估框架。评估框架的核心是语句验证管道,它包含以下几个主要模块:1) 引擎日志解析器:从游戏引擎的日志中提取Agent的感知、行动等信息,构建Agent的真实轨迹。2) 语句解析器:解析Agent的语言表达,提取其中的关键信息,例如指责对象、空间位置等。3) 验证器:将Agent的语言表达与真实轨迹进行比对,判断Agent的语言是否基于其感知和行动。4) 报告生成器:生成评估报告,详细列出Agent的幻觉、无根据指责等问题。

关键创新:QUACK最重要的技术创新点在于其语句验证管道,它能够自动地将Agent的语言表达与其真实轨迹进行比对,从而实现对Agent语言的细粒度审计。与现有方法相比,QUACK能够更全面、更深入地评估Agent的推理能力,并为改进Agent的设计提供更有效的指导。

关键设计:QUACK的关键设计包括:1) 真实轨迹的构建方法:通过解析游戏引擎的日志,尽可能完整地还原Agent的感知、行动等信息。2) 语句解析器的设计:能够准确地提取Agent语言表达中的关键信息,例如指责对象、空间位置等。3) 验证器的设计:能够有效地比对Agent的语言表达与真实轨迹,判断Agent的语言是否基于其感知和行动。4) 评估指标的设计:能够全面地反映Agent的推理能力,例如幻觉率、无根据指责率等。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,即使是最先进的视觉语言模型Agent,在QUACK环境中仍然存在显著的幻觉和无根据指责。具体来说,最强的Agent有15.1%的可验证空间声明存在幻觉,并且超过一半的指责没有实际证据支持。这些结果表明,现有Agent在多模态社交推理方面仍有很大的提升空间。

🎯 应用场景

QUACK可应用于多智能体协作、人机交互、安全攸关系统等领域。通过审计Agent的语言与行为一致性,提高系统的可靠性和安全性。例如,在自动驾驶领域,可以利用QUACK验证自动驾驶系统的决策是否基于其感知到的环境信息,从而避免因幻觉或错误推理导致的事故。

📄 摘要(原文)

Social deduction games have become a popular testbed for probing reasoning, deception, coordination, and belief modeling in Large Language Model (LLM) agents. However, most environments are scored only by game outcomes such as win rates and largely remain to text-only interaction, making it difficult to tell whether an agent's language is actually grounded in what it perceived and did, or to identify the failure modes underlying its behavior. To address this gap, we introduce QUACK, an open-source environment and evaluation framework for auditing the grounding of agent language in multimodal social reasoning. QUACK evaluates agents at three levels: game outcomes, behavioral trajectories, and utterance-level consistency. Its core Statement Verification Pipeline reconstructs each agent's ground-truth trajectory from engine logs and checks every discussion claim against it, automatically flagging spatial hallucination, unsupported accusation, deception collapse, and language-action inconsistency. Evaluating three frontier VLMs in both homogeneous and cross-model adversarial settings, we find that even the strongest agent hallucinates 15.1% of its verifiable spatial claims and makes over half of its accusations without grounded evidence. We release the full engine, evaluation framework, toolkit, and logs at https://github.com/AAAAA-Academia-Attractions/QUACK.