GuessBench: Sensemaking Multimodal Creativity in the Wild

作者: Zifeng Zhu, Shangbin Feng, Herun Wan, Ningnan Wang, Minnan Luo, Yulia Tsvetkov

分类: cs.CL

发布日期: 2025-06-01 (更新: 2025-06-06)

💡 一句话要点

提出GuessBench基准，评估VLM在Minecraft游戏中理解人类创造力的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 创造力建模 Minecraft 基准测试 多模态理解

📋 核心要点

现有VLM在理解人类创造力方面存在不足，尤其是在嘈杂、多元化的真实场景中。
GuessBench利用Minecraft游戏“猜建筑”的数据，构建了一个评估VLM创造力理解能力的基准。
实验表明，即使是GPT-4o在GuessBench上也存在34%的错误率，且开放模型与API模型性能差距显著。

📝 摘要（中文）

本文提出了GuessBench，这是一个新颖的基准，用于评估视觉语言模型（VLM）在建模普遍存在、嘈杂且多元化的人类创造力方面的能力。GuessBench的数据来源于“猜建筑”，这是一个在线多人Minecraft小游戏，其中一名玩家根据一个概念（例如，毛毛虫）建造一个Minecraft建筑，而其他玩家则尝试用自然语言提示来猜测它，这为VLM作为猜测者在野外进行创造力理解提供了一个原始的试验平台。我们从实际游戏中整理了1500张图像，并设计了2000个问题，涵盖静态和动态图像设置、不同完整性的自然语言提示等。对六个开放/API VLM和五种推理增强方法的广泛实验表明，GuessBench提出了一项在创造力建模方面具有独特挑战性的任务：即使是最先进的GPT-4o在34%的实例中也是不正确的，并且我们观察到开放模型和API模型之间存在巨大的性能差距（平均13.87% vs. 53.93%）。当用作改进VLM的资源时，在GuessBench问题的推理轨迹上进行微调可将视觉感知任务的性能平均提高15.36%。进一步的分析表明，VLM在创造力理解方面的性能与训练数据中概念的频率相关，而对于代表性不足的文化背景和低资源语言中的概念，准确性会急剧下降。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型（VLM）在理解和建模人类创造力方面的不足。现有方法在处理真实世界中普遍存在的、嘈杂的、多元化的创造力场景时面临挑战，缺乏一个合适的基准来评估VLM在此方面的能力。

核心思路：论文的核心思路是利用Minecraft游戏“猜建筑”的数据，构建一个更贴近真实场景的评估基准。该游戏模拟了人类创造和理解创造力的过程，其中一个玩家根据概念建造，其他玩家根据提示猜测，为VLM提供了一个自然且具有挑战性的测试环境。

技术框架：GuessBench基准的构建流程主要包括以下几个阶段：1) 数据收集：从“猜建筑”游戏中收集图像和自然语言提示；2) 问题设计：设计涵盖静态和动态图像、不同完整性提示的问题；3) 模型评估：使用VLM作为猜测者，评估其在GuessBench上的性能；4) 模型改进：利用GuessBench数据对VLM进行微调，提升其视觉感知能力。

关键创新：GuessBench的关键创新在于其数据来源和问题设计。它直接从真实的游戏场景中获取数据，避免了人工合成数据的局限性。同时，问题设计考虑了多种因素，如图像的静态/动态特性、提示的完整性等，更全面地评估了VLM的创造力理解能力。

关键设计：论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但是，论文强调了使用推理轨迹进行微调，以提高VLM的视觉感知能力。此外，论文还分析了VLM性能与概念频率、文化背景和语言资源之间的关系，为未来的模型改进提供了方向。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的GPT-4o在GuessBench上也存在34%的错误率，表明该基准具有挑战性。开放模型和API模型之间存在显著的性能差距（平均13.87% vs. 53.93%）。通过在GuessBench问题的推理轨迹上进行微调，视觉感知任务的性能平均提高了15.36%。

🎯 应用场景

GuessBench的研究成果可应用于提升VLM在创意内容理解、游戏AI、人机交互等领域的性能。例如，可以帮助VLM更好地理解用户生成的图像和文本，从而实现更智能的图像搜索、内容推荐和对话生成。此外，该基准还可以促进VLM在文化理解和低资源语言处理方面的研究。

📄 摘要（原文）

We propose GuessBench, a novel benchmark that evaluates Vision Language Models (VLMs) on modeling the pervasive, noisy, and pluralistic human creativity. GuessBench sources data from "Guess the Build", an online multiplayer Minecraft minigame where one player constructs a Minecraft build given a concept (e.g. caterpillar) and others try to guess it with natural language hints, presenting a pristine testbed for sensemaking creativity in the wild with VLMs acting as guessers. We curate 1500 images from the actual gameplay and design 2000 problems spanning static and dynamic image settings, natural language hints of varying completeness, and more. Extensive experiments with six open/API VLMs and five reasoning enhancement approaches demonstrate that GuessBench presents a uniquely challenging task in creativity modeling: even the start-of-the-art GPT-4o is incorrect on 34% of instances, while we observe a huge performance gap (13.87% vs. 53.93% on average) between open and API models. When used as a resource to improve VLMs, fine-tuning on the reasoning traces for GuessBench problems improves visual perception tasks by 15.36% on average. Further analysis reveals that VLM performance in creativity sensemaking correlates with the frequency of the concept in training data, while the accuracy drops sharply for concepts in underrepresented cultural contexts and low-resource languages.

GuessBench: Sensemaking Multimodal Creativity in the Wild

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理