Do MLLMs Exhibit Human-like Perceptual Behaviors? HVSBench: A Benchmark for MLLM Alignment with Human Perceptual Behavior

作者: Jiaying Lin, Shuquan Ye, Dan Xu, Wanli Ouyang, Rynson W. H. Lau

分类: cs.CV

发布日期: 2024-12-12 (更新: 2025-12-17)

备注: Project page: https://jiaying.link/HVSBench/

💡 一句话要点

提出HVSBench基准测试MLLM是否具备类人感知行为，揭示显著差距。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 类人感知 基准测试 人类视觉系统 感知对齐

📋 核心要点

现有MLLM在视觉任务中表现出色，但缺乏对其是否具备类人感知行为的系统评估。
提出HVSBench，一个大规模基准测试，包含85000+样本，覆盖人类视觉感知的多个关键领域。
实验表明，现有MLLM在类人感知行为方面与人类存在显著差距，亟需进一步研究。

📝 摘要（中文）

多模态大型语言模型(MLLM)在许多视觉任务中表现出色，但它们是否表现出类似人类的感知行为尚不清楚。为了评估这一点，我们推出了HVSBench，这是第一个大规模基准，包含超过85,000个样本，旨在测试MLLM与人类视觉系统(HVS)的对齐程度。该基准涵盖5个关键领域的13个类别：显著性、快速计数、优先级排序、自由观看和搜索。我们的综合评估揭示了一个显著的感知差距：即使是最先进的MLLM也只取得了中等的结果。相比之下，人类参与者表现出强大的性能，明显优于所有模型。这突出了HVSBench的高质量以及对更符合人类的AI的需求。我们相信我们的基准将成为开发下一代可解释MLLM的关键工具。

🔬 方法详解

问题定义：论文旨在评估多模态大型语言模型（MLLMs）是否具备与人类视觉系统（HVS）相似的感知行为。现有MLLMs在视觉任务中表现良好，但缺乏对其感知能力是否与人类一致的系统性评估。现有的评估方法通常侧重于任务完成度，而忽略了模型感知过程与人类感知的差异。这种差异可能导致模型在某些场景下做出不符合人类直觉的决策。

核心思路：论文的核心思路是通过构建一个大规模、多样化的基准测试集HVSBench，来系统地评估MLLMs在不同感知任务上的表现，并将其与人类的表现进行对比。HVSBench的设计模仿了人类视觉感知的关键方面，如显著性、快速计数、优先级排序、自由观看和搜索。通过比较MLLMs和人类在这些任务上的表现，可以量化MLLMs与人类感知行为的差距。

技术框架：HVSBench基准测试包含五个关键领域：显著性（Prominence）、快速计数（Subitizing）、优先级排序（Prioritizing）、自由观看（Free-Viewing）和搜索（Searching）。每个领域包含多个类别，总共13个类别。对于每个类别，HVSBench都提供了大量的图像样本和相应的ground truth数据，用于评估MLLMs的性能。评估过程包括将图像输入MLLM，并根据MLLM的输出计算相应的评估指标，然后将MLLM的性能与人类的性能进行比较。

关键创新：HVSBench是第一个专门用于评估MLLMs是否具备类人感知行为的大规模基准测试。它涵盖了人类视觉感知的多个关键方面，并提供了丰富的图像样本和ground truth数据。通过将MLLMs的性能与人类的性能进行对比，HVSBench可以量化MLLMs与人类感知行为的差距，并为开发更符合人类感知的MLLMs提供指导。

关键设计：HVSBench的关键设计在于其对人类视觉感知关键方面的模拟。例如，在显著性领域，HVSBench包含了各种类型的显著性线索，如颜色、形状、纹理等。在快速计数领域，HVSBench包含了不同数量和排列方式的物体。在优先级排序领域，HVSBench包含了不同类型的物体和场景，并要求模型根据一定的规则对物体进行排序。这些设计使得HVSBench能够全面地评估MLLMs在不同感知任务上的表现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的MLLM在HVSBench上的表现也远不如人类。例如，在某些感知任务上，人类的准确率可以达到90%以上，而MLLM的准确率只有60%左右。这表明现有MLLM在类人感知行为方面仍有很大的提升空间。HVSBench的发布为研究人员提供了一个重要的工具，可以用于评估和改进MLLM的感知能力。

🎯 应用场景

该研究成果可应用于开发更符合人类直觉和偏好的AI系统，例如，在自动驾驶领域，可以提高车辆对复杂交通场景的理解能力；在医疗影像分析领域，可以辅助医生进行更准确的诊断；在人机交互领域，可以设计更自然和高效的交互界面。此外，该基准测试也有助于推动可解释AI的发展，使人们更容易理解AI的决策过程。

📄 摘要（原文）

While Multimodal Large Language Models (MLLMs) excel at many vision tasks, it is unknown if they exhibit human-like perceptual behaviors. To evaluate this, we introduce HVSBench, the first large-scale benchmark with over 85,000 samples designed to test MLLM alignment with the human visual system (HVS). The benchmark covers 13 categories across 5 key fields: Prominence, Subitizing, Prioritizing, Free-Viewing, and Searching. Our comprehensive evaluation reveals a significant perceptual gap: even state-of-the-art MLLMs achieve only moderate results. In contrast, human participants demonstrate strong performance, significantly outperforming all models. This underscores the high quality of HVSBench and the need for more human-aligned AI. We believe our benchmark will be a critical tool for developing the next generation of explainable MLLMs.

Do MLLMs Exhibit Human-like Perceptual Behaviors? HVSBench: A Benchmark for MLLM Alignment with Human Perceptual Behavior

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理