CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation

📄 arXiv: 2504.00043v2 📥 PDF

作者: Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang

分类: cs.CL, cs.AI, cs.CV

发布日期: 2025-03-30 (更新: 2025-08-11)


💡 一句话要点

CrossWordBench:提出可控填字游戏生成框架,评估LLM和LVLM的推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 视觉语言模型 多模态推理 填字游戏 基准测试 可控生成 推理评估

📋 核心要点

  1. 现有推理评估框架主要侧重于文本或视觉语言理解,缺乏文本和视觉约束之间的动态交互。
  2. CrossWordBench通过填字游戏评估LLM和LVLM,要求模型同时满足文本线索和视觉网格的约束。
  3. 实验表明,推理型LLM优于非推理型模型,而LVLM的解谜性能与网格解析准确率密切相关。

📝 摘要(中文)

本文提出了CrossWordBench,一个用于评估大型语言模型(LLMs)和大型视觉语言模型(LVLMs)推理能力的基准。该基准通过填字游戏这一媒介,要求模型同时满足文本线索的语义约束和视觉网格结构的交叉约束,从而评估模型的多模态推理能力。CrossWordBench利用可控的填字游戏生成框架,生成文本和图像两种格式的谜题,并通过预填充比例控制难度,提供直接解谜和交互模式等不同的评估策略。对20多个模型的广泛评估表明,推理型LLM通过有效利用交叉字母约束,显著优于非推理型模型。LVLM在该任务中表现不佳,其解谜性能与网格解析准确率高度相关。研究结果揭示了当前LLM和LVLM推理能力的局限性,并为未来评估多模态约束任务提供了一种有效方法。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的推理评估框架,通常侧重于文本推理或视觉语言理解,缺乏对文本和视觉信息之间动态交互的有效评估。填字游戏需要同时理解文本线索的语义信息,并遵守视觉网格的交叉约束,因此可以作为评估多模态推理能力的理想任务。

核心思路:CrossWordBench的核心思路是利用填字游戏作为媒介,通过控制谜题的生成过程和评估策略,来考察LLM和LVLM在多模态约束下的推理能力。填字游戏的设计同时需要文本语义理解和视觉结构分析,能够有效区分模型的推理能力。

技术框架:CrossWordBench包含一个可控的填字游戏生成框架和多种评估策略。生成框架可以生成文本和图像两种格式的谜题,并通过调整预填充比例来控制难度。评估策略包括直接解谜和交互模式。直接解谜要求模型直接给出答案,而交互模式允许模型逐步探索和修正答案。

关键创新:CrossWordBench的关键创新在于其可控的填字游戏生成框架,该框架能够生成具有不同难度和格式的谜题,从而实现对模型推理能力的精细评估。此外,该基准还提供了多种评估策略,可以更全面地了解模型的推理过程。与现有方法相比,CrossWordBench更侧重于评估模型在多模态约束下的推理能力。

关键设计:填字游戏生成框架的关键设计包括:(1) 线索生成模块,用于生成与答案相关的文本线索;(2) 网格生成模块,用于生成具有交叉结构的视觉网格;(3) 难度控制模块,通过调整预填充比例来控制谜题的难度。评估策略的关键设计包括:(1) 直接解谜模式,要求模型直接给出答案;(2) 交互模式,允许模型逐步探索和修正答案。具体参数设置和损失函数未知。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,推理型LLM在CrossWordBench上的表现显著优于非推理型模型,证明了交叉字母约束的有效性。LVLM在该任务中表现不佳,其解谜性能与网格解析准确率高度相关,揭示了当前LVLM在处理复杂视觉结构方面的局限性。具体性能数据未知。

🎯 应用场景

CrossWordBench可用于评估和提升LLM和LVLM在多模态推理方面的能力,有助于开发更智能的AI系统。该基准可以应用于需要同时理解文本和视觉信息的任务,例如智能文档处理、视觉问答和机器人导航等领域。未来,该研究可以促进多模态推理算法的发展,并推动AI技术在更广泛领域的应用。

📄 摘要(原文)

Existing reasoning evaluation frameworks for Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) predominantly assess either text-based reasoning or vision-language understanding capabilities, with limited dynamic interplay between textual and visual constraints. To address this limitation, we introduce CrossWordBench, a benchmark designed to evaluate the reasoning capabilities of both LLMs and LVLMs through the medium of crossword puzzles -- a task requiring multimodal adherence to semantic constraints from text-based clues and intersectional constraints from visual grid structures. CrossWordBench leverages a controllable puzzle generation framework that produces puzzles in two formats (text and image), supports adjustable difficulty through prefill ratio control, and offers different evaluation strategies, ranging from direct puzzle solving to interactive modes. Our extensive evaluation of over 20 models reveals that reasoning LLMs substantially outperform non-reasoning models by effectively leveraging crossing-letter constraints. We further demonstrate that LVLMs struggle with the task, showing a strong correlation between their puzzle-solving performance and grid-parsing accuracy. Our findings highlight limitations of the reasoning capabilities of current LLMs and LVLMs, and provide an effective approach for creating multimodal constrained tasks for future evaluations.