KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models
作者: Eunice Yiu, Maan Qraitem, Anisa Noor Majhi, Charlie Wong, Yutong Bai, Shiry Ginosar, Alison Gopnik, Kate Saenko
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2024-07-25 (更新: 2025-03-05)
备注: 10 pages. Project website: https://ey242.github.io/kiva.github.io/. Benchmark and code: https://github.com/ey242/KiVA
期刊: The Thirteenth International Conference on Learning Representations (ICLR), 2025
💡 一句话要点
提出KiVA基准以测试大型多模态模型的视觉类比推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉类比推理 多模态模型 儿童认知 发展心理学 基准测试 人工智能评估
📋 核心要点
- 现有的多模态模型在视觉类比推理方面存在明显不足,尤其是在处理复杂变化时表现不佳。
- 本文提出了一个新的基准,包含4300个视觉变换,旨在测试LMMs在视觉类比推理中的能力,并与儿童和成人进行比较。
- 实验结果表明,虽然一些模型在简单视觉属性任务中表现较好,但在复杂任务上面临显著挑战,儿童和成人的表现更为优越。
📝 摘要(中文)
本文研究了大型多模态模型(LMMs)在视觉类比推理方面的表现,并与人类儿童和成人进行了比较。视觉类比是从一幅图像中推断出的抽象规则并应用于另一幅图像。现有的基准测试虽然存在,但往往需要高级技能,忽略了幼儿能够进行的基本视觉类比。受发展心理学启发,本文提出了一个包含4300个日常物体视觉变换的新基准,以测试LMMs的视觉类比推理能力。研究发现,尽管一些模型在识别变化方面表现良好,但在量化变化和将规则推广到新场景时存在困难,而儿童和成人在所有三个阶段的类比推理能力均显著更强。
🔬 方法详解
问题定义:本文旨在解决大型多模态模型在视觉类比推理中的不足,现有方法往往忽略了儿童能够进行的基本视觉类比,导致模型在处理复杂变化时表现不佳。
核心思路:通过引入一个包含4300个视觉变换的新基准,论文旨在评估LMMs在视觉类比推理中的能力,特别是在识别变化、量化变化和将规则应用于新场景的能力。
技术框架:评估过程分为三个阶段:第一阶段识别变化的内容(如颜色、数量等),第二阶段分析变化的方式(如增加一个物体),第三阶段将推导出的规则应用于新的场景。
关键创新:本研究的创新在于提出了一个专注于儿童发展心理学的基准,强调了视觉类比推理的基本能力,而非仅依赖于复杂的视觉推理任务。
关键设计:在实验中,模型的表现通过对比儿童和成人的反应时间和准确性来评估,特别关注模型在简单和复杂任务中的表现差异。
🖼️ 关键图片
📊 实验亮点
实验结果显示,尽管GPT-o1、GPT-4V等模型在识别变化方面表现良好,但在量化变化和将规则应用于新对象时存在明显困难。相比之下,儿童和成人在所有三个阶段的类比推理能力均显著更强,尤其是在处理复杂任务时,模型的表现与人类反应时间存在明显差距。
🎯 应用场景
该研究的潜在应用领域包括教育技术、儿童认知发展研究以及人工智能模型的设计与评估。通过理解儿童的类比推理能力,可以为教育工具的开发提供重要参考,同时也为改进多模态模型的设计提供了新的视角。
📄 摘要(原文)
This paper investigates visual analogical reasoning in large multimodal models (LMMs) compared to human adults and children. A "visual analogy" is an abstract rule inferred from one image and applied to another. While benchmarks exist for testing visual reasoning in LMMs, they require advanced skills and omit basic visual analogies that even young children can make. Inspired by developmental psychology, we propose a new benchmark of 4,300 visual transformations of everyday objects to test LMMs on visual analogical reasoning and compare them to children (ages three to five) and to adults. We structure the evaluation into three stages: identifying what changed (e.g., color, number, etc.), how it changed (e.g., added one object), and applying the rule to new scenarios. Our findings show that while GPT-o1, GPT-4V, LLaVA-1.5, and MANTIS identify the "what" effectively, they struggle with quantifying the "how" and extrapolating this rule to new objects. In contrast, children and adults exhibit much stronger analogical reasoning at all three stages. Additionally, the strongest tested model, GPT-o1, performs better in tasks involving simple surface-level visual attributes like color and size, correlating with quicker human adult response times. Conversely, more complex tasks such as number, rotation, and reflection, which necessitate extensive cognitive processing and understanding of extrinsic spatial properties in the physical world, present more significant challenges. Altogether, these findings highlight the limitations of training models on data that primarily consists of 2D images and text.