Do MLLMs Exhibit Human-like Perceptual Behaviors? HVSBench: A Benchmark for MLLM Alignment with Human Perceptual Behavior
作者: Jiaying Lin, Shuquan Ye, Dan Xu, Wanli Ouyang, Rynson W. H. Lau
分类: cs.CV
发布日期: 2024-12-12 (更新: 2025-12-17)
备注: Project page: https://jiaying.link/HVSBench/
💡 一句话要点
提出HVSBench基准测试MLLM是否具备类人感知行为,揭示显著差距。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 类人感知 基准测试 人类视觉系统 感知对齐
📋 核心要点
- 现有MLLM在视觉任务中表现出色,但缺乏对其是否具备类人感知行为的系统评估。
- 提出HVSBench,一个大规模基准测试,包含85000+样本,覆盖人类视觉感知的多个关键领域。
- 实验表明,现有MLLM在类人感知行为方面与人类存在显著差距,亟需进一步研究。
📝 摘要(中文)
多模态大型语言模型(MLLM)在许多视觉任务中表现出色,但它们是否表现出类似人类的感知行为尚不清楚。为了评估这一点,我们推出了HVSBench,这是第一个大规模基准,包含超过85,000个样本,旨在测试MLLM与人类视觉系统(HVS)的对齐程度。该基准涵盖5个关键领域的13个类别:显著性、快速计数、优先级排序、自由观看和搜索。我们的综合评估揭示了一个显著的感知差距:即使是最先进的MLLM也只取得了中等的结果。相比之下,人类参与者表现出强大的性能,明显优于所有模型。这突出了HVSBench的高质量以及对更符合人类的AI的需求。我们相信我们的基准将成为开发下一代可解释MLLM的关键工具。
🔬 方法详解
问题定义:论文旨在评估多模态大型语言模型(MLLMs)是否具备与人类视觉系统(HVS)相似的感知行为。现有MLLMs在视觉任务中表现良好,但缺乏对其感知能力是否与人类一致的系统性评估。现有的评估方法通常侧重于任务完成度,而忽略了模型感知过程与人类感知的差异。这种差异可能导致模型在某些场景下做出不符合人类直觉的决策。
核心思路:论文的核心思路是通过构建一个大规模、多样化的基准测试集HVSBench,来系统地评估MLLMs在不同感知任务上的表现,并将其与人类的表现进行对比。HVSBench的设计模仿了人类视觉感知的关键方面,如显著性、快速计数、优先级排序、自由观看和搜索。通过比较MLLMs和人类在这些任务上的表现,可以量化MLLMs与人类感知行为的差距。
技术框架:HVSBench基准测试包含五个关键领域:显著性(Prominence)、快速计数(Subitizing)、优先级排序(Prioritizing)、自由观看(Free-Viewing)和搜索(Searching)。每个领域包含多个类别,总共13个类别。对于每个类别,HVSBench都提供了大量的图像样本和相应的ground truth数据,用于评估MLLMs的性能。评估过程包括将图像输入MLLM,并根据MLLM的输出计算相应的评估指标,然后将MLLM的性能与人类的性能进行比较。
关键创新:HVSBench是第一个专门用于评估MLLMs是否具备类人感知行为的大规模基准测试。它涵盖了人类视觉感知的多个关键方面,并提供了丰富的图像样本和ground truth数据。通过将MLLMs的性能与人类的性能进行对比,HVSBench可以量化MLLMs与人类感知行为的差距,并为开发更符合人类感知的MLLMs提供指导。
关键设计:HVSBench的关键设计在于其对人类视觉感知关键方面的模拟。例如,在显著性领域,HVSBench包含了各种类型的显著性线索,如颜色、形状、纹理等。在快速计数领域,HVSBench包含了不同数量和排列方式的物体。在优先级排序领域,HVSBench包含了不同类型的物体和场景,并要求模型根据一定的规则对物体进行排序。这些设计使得HVSBench能够全面地评估MLLMs在不同感知任务上的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的MLLM在HVSBench上的表现也远不如人类。例如,在某些感知任务上,人类的准确率可以达到90%以上,而MLLM的准确率只有60%左右。这表明现有MLLM在类人感知行为方面仍有很大的提升空间。HVSBench的发布为研究人员提供了一个重要的工具,可以用于评估和改进MLLM的感知能力。
🎯 应用场景
该研究成果可应用于开发更符合人类直觉和偏好的AI系统,例如,在自动驾驶领域,可以提高车辆对复杂交通场景的理解能力;在医疗影像分析领域,可以辅助医生进行更准确的诊断;在人机交互领域,可以设计更自然和高效的交互界面。此外,该基准测试也有助于推动可解释AI的发展,使人们更容易理解AI的决策过程。
📄 摘要(原文)
While Multimodal Large Language Models (MLLMs) excel at many vision tasks, it is unknown if they exhibit human-like perceptual behaviors. To evaluate this, we introduce HVSBench, the first large-scale benchmark with over 85,000 samples designed to test MLLM alignment with the human visual system (HVS). The benchmark covers 13 categories across 5 key fields: Prominence, Subitizing, Prioritizing, Free-Viewing, and Searching. Our comprehensive evaluation reveals a significant perceptual gap: even state-of-the-art MLLMs achieve only moderate results. In contrast, human participants demonstrate strong performance, significantly outperforming all models. This underscores the high quality of HVSBench and the need for more human-aligned AI. We believe our benchmark will be a critical tool for developing the next generation of explainable MLLMs.