LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models
作者: Junyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li
分类: cs.CV
发布日期: 2024-10-13 (更新: 2025-04-21)
备注: ICLR 2025 SPOTLIGHT, 83 pages, 63 figures
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出LOKI:一个使用大型多模态模型进行综合性合成数据检测的基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 合成数据检测 大型多模态模型 基准测试 多模态学习 人工智能安全
📋 核心要点
- 现有方法难以有效区分日益泛滥的合成多模态数据,对互联网内容的可信度构成挑战。
- LOKI基准旨在通过多模态数据检测任务,评估大型多模态模型(LMMs)的感知、知识和推理能力。
- LOKI包含多种模态和难度级别的问题,并对多个开源和闭源LMMs进行了评估,揭示了它们的潜力和局限性。
📝 摘要(中文)
随着AI生成内容的快速发展,未来的互联网可能充斥着合成数据,使得区分真实可信的多模态数据变得越来越具有挑战性。合成数据检测因此受到了广泛关注,而大型多模态模型(LMMs)在该任务中的表现也引起了人们的极大兴趣。LMMs可以为其真实性判断提供自然语言解释,从而增强合成内容检测的可解释性。同时,有效区分真实数据和合成数据的任务,可以测试LMMs的感知、知识和推理能力。为此,我们引入了LOKI,这是一个新颖的基准,旨在评估LMMs检测跨多种模态合成数据的能力。LOKI包含视频、图像、3D、文本和音频模态,包含18K个精心策划的问题,跨越26个子类别,并具有明确的难度级别。该基准包括粗粒度的判断和多项选择题,以及细粒度的异常选择和解释任务,从而可以对LMMs进行全面分析。我们在LOKI上评估了22个开源LMMs和6个闭源模型,突出了它们作为合成数据检测器的潜力,同时也揭示了LMMs能力发展中的一些局限性。有关LOKI的更多信息,请访问https://opendatalab.github.io/LOKI/。
🔬 方法详解
问题定义:论文旨在解决日益增长的合成数据对互联网内容真实性带来的威胁。现有方法在区分真实数据和合成数据方面存在不足,尤其是在多模态数据方面。现有的基准测试不够全面,无法充分评估大型多模态模型(LMMs)的检测能力。
核心思路:论文的核心思路是构建一个综合性的多模态合成数据检测基准LOKI,用于全面评估LMMs在区分真实数据和合成数据方面的能力。通过设计不同模态、不同难度级别的问题,以及多种类型的任务,LOKI能够更有效地测试LMMs的感知、知识和推理能力。
技术框架:LOKI基准包含视频、图像、3D、文本和音频五种模态的数据,涵盖26个子类别。它包含18K个精心策划的问题,难度级别明确。任务类型包括粗粒度的判断题和多项选择题,以及细粒度的异常选择和解释任务。整体流程是:首先,收集和生成多模态数据;然后,设计不同类型和难度级别的问题;最后,使用这些问题评估LMMs的性能。
关键创新:LOKI的关键创新在于其综合性和多模态性。它不仅涵盖了多种模态的数据,还设计了多种类型的任务,从而能够更全面地评估LMMs的合成数据检测能力。此外,LOKI还要求LMMs提供自然语言解释,从而增强了可解释性。
关键设计:LOKI的关键设计包括:1) 多模态数据的选择和生成,保证了数据的多样性和真实性;2) 问题设计的难度级别,从易到难,逐步增加挑战;3) 任务类型的多样性,包括判断、选择、异常选择和解释,全面评估LMMs的能力;4) 评估指标的设计,用于量化LMMs的性能。
🖼️ 关键图片
📊 实验亮点
LOKI基准测试评估了22个开源LMMs和6个闭源模型,揭示了它们在合成数据检测方面的潜力和局限性。实验结果表明,LMMs在某些模态和任务上表现良好,但在其他模态和任务上仍有提升空间。该基准为LMMs的进一步发展提供了重要的参考。
🎯 应用场景
该研究成果可应用于内容审核、信息安全、虚假信息检测等领域。通过提高LMMs检测合成数据的能力,可以有效减少虚假信息在互联网上的传播,维护网络空间的健康和安全。未来,该基准可以促进LMMs在合成数据检测方面的研究和发展,推动相关技术的进步。
📄 摘要(原文)
With the rapid development of AI-generated content, the future internet may be inundated with synthetic data, making the discrimination of authentic and credible multimodal data increasingly challenging. Synthetic data detection has thus garnered widespread attention, and the performance of large multimodal models (LMMs) in this task has attracted significant interest. LMMs can provide natural language explanations for their authenticity judgments, enhancing the explainability of synthetic content detection. Simultaneously, the task of distinguishing between real and synthetic data effectively tests the perception, knowledge, and reasoning capabilities of LMMs. In response, we introduce LOKI, a novel benchmark designed to evaluate the ability of LMMs to detect synthetic data across multiple modalities. LOKI encompasses video, image, 3D, text, and audio modalities, comprising 18K carefully curated questions across 26 subcategories with clear difficulty levels. The benchmark includes coarse-grained judgment and multiple-choice questions, as well as fine-grained anomaly selection and explanation tasks, allowing for a comprehensive analysis of LMMs. We evaluated 22 open-source LMMs and 6 closed-source models on LOKI, highlighting their potential as synthetic data detectors and also revealing some limitations in the development of LMM capabilities. More information about LOKI can be found at https://opendatalab.github.io/LOKI/