FREAK: A Fine-grained Hallucination Evaluation Benchmark for Advanced MLLMs

作者: Zhihan Yin, Jianxin Liang, Yueqian Wang, Yifeng Yao, Huishuai Zhang, Dongyan Zhao

分类: cs.CV

发布日期: 2026-03-20

备注: 34 pages

💡 一句话要点

FREAK：针对高级多模态大语言模型细粒度幻觉评估基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉评估 细粒度视觉感知 反常识推理 基准数据集

📋 核心要点

现有MLLM幻觉评估基准任务过于简单或缺乏多样性，难以有效评估先进模型的幻觉问题。
FREAK基准通过逼真的反常识图像，细粒度地评估MLLM在视觉感知细节上的幻觉现象。
实验表明，现有SOTA模型在FREAK上表现出严重的幻觉问题，思维链提示也未能有效缓解。

📝 摘要（中文）

多模态大语言模型(MLLMs)存在幻觉问题。现有的幻觉评估基准通常受限于过于简化的任务（导致指标饱和）或不足的多样性（无法充分评估最先进多模态模型中的幻觉程度）。为了解决这一差距，我们提出了FREAK，这是一个全面的多模态基准，专为MLLMs中的细粒度幻觉评估而设计。通过具有细粒度反常识编辑的高质量逼真图像，FREAK创新性地评估了MLLMs在详细视觉感知中的幻觉现象。在FREAK上进行的大量实验表明，SOTA模型在详细视觉感知方面存在严重的幻觉问题。为了能够进行更深入的研究，我们整理了一个受控子集，以间接评估模型感知目标详细信息的能力。通过对该任务中流行的思维链(CoT)提示技术的系统评估，我们揭示了关于幻觉模式和模型推理过程的关键见解。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLMs）中存在的幻觉问题，特别是模型在处理细粒度视觉信息时产生的幻觉。现有评估基准存在两个主要痛点：一是任务过于简单，导致评估指标饱和，无法区分不同模型的性能；二是缺乏足够的多样性，难以全面评估模型在各种场景下的幻觉程度。

核心思路：论文的核心思路是构建一个更具挑战性和多样性的评估基准，即FREAK。该基准通过引入包含细粒度反常识编辑的逼真图像，迫使模型关注图像中的细节信息，从而更有效地检测和评估模型在视觉感知方面的幻觉。这种设计旨在模拟真实世界中复杂的视觉场景，并考察模型是否能够准确地理解和推理这些场景。

技术框架：FREAK基准的构建主要包含以下几个阶段：1) 设计细粒度的反常识编辑规则，确保图像中的修改既微妙又具有语义意义；2) 生成高质量的逼真图像，这些图像包含根据上述规则进行的编辑；3) 构建评估任务，要求模型根据图像内容回答特定问题，从而判断模型是否存在幻觉；4) 设计受控子集，用于间接评估模型感知目标详细信息的能力；5) 采用思维链（CoT）提示技术，分析其对缓解幻觉的影响。

关键创新：FREAK基准的最重要的技术创新点在于其细粒度的反常识编辑。与以往的基准相比，FREAK更加注重图像细节的语义一致性，通过微妙的修改来考察模型对细节的感知能力。这种设计使得FREAK能够更有效地检测模型在视觉感知方面的幻觉，并为研究人员提供更深入的分析工具。

关键设计：FREAK的关键设计包括：1) 图像生成：使用高质量的图像生成技术，确保图像的逼真度和细节丰富度；2) 反常识编辑：设计多种类型的反常识编辑，例如改变物体的颜色、形状或位置，使其与常识相悖；3) 评估任务：设计多种类型的评估任务，例如问答、图像描述等，以全面评估模型的幻觉程度；4) 受控子集：构建一个受控子集，其中包含特定类型的反常识编辑，以便更精确地评估模型对特定细节的感知能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的SOTA多模态大语言模型在FREAK基准上表现出严重的幻觉问题，尤其是在处理细粒度的视觉信息时。即使采用思维链（CoT）提示技术，也未能有效缓解幻觉现象。这些结果表明，现有的MLLM在视觉感知方面仍有很大的提升空间，FREAK可以作为未来研究的重要评估工具。

🎯 应用场景

FREAK基准的潜在应用领域包括：提升多模态大语言模型的可靠性和安全性，尤其是在需要精确视觉感知的场景中，如自动驾驶、医疗诊断和智能监控。该基准能够帮助研究人员更好地理解和解决MLLM中的幻觉问题，从而推动相关技术的发展，并最终应用于更广泛的实际场景中。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) suffer from hallucinations. Existing hallucination evaluation benchmarks are often limited by over-simplified tasks leading to saturated metrics, or insufficient diversity that fails to adequately assess the hallucination extent in state-of-the-art multimodal models. To address this gap, we propose FREAK, a comprehensive multimodal benchmark designed for fine-grained hallucination assessment in MLLMs. Through high-quality photorealistic images featuring fine-grained counter-commonsense edits, FREAK innovatively evaluates hallucination phenomena in detailed visual perception of MLLMs. Extensive experiments on FREAK show severe hallucination issues in SOTA models regarding detailed visual perception. To enable deeper investigation, we curate a controlled subset to indirectly evaluate the model's ability to perceive target detailed information. Through systematic evaluation of prevailing Chain-of-Thought (CoT) prompting techniques within this task, we reveal critical insights regarding hallucination patterns and model reasoning processes.

FREAK: A Fine-grained Hallucination Evaluation Benchmark for Advanced MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理