GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language
作者: Jinwoong Kim, Rui Yang, Huishuai Zhang
分类: cs.CL
发布日期: 2026-05-13
💡 一句话要点
提出GeoBuildBench:一个用于交互式几何构造的自然语言基准测试。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 几何构造 自然语言处理 多模态学习 基准测试 可执行推理
📋 核心要点
- 现有几何基准侧重于答案正确性或静态图解释,缺乏对交互式几何构造的评估。
- GeoBuildBench将几何图视为交互式构造任务,要求智能体生成DSL程序以满足几何对象和约束。
- 实验表明,现有模型在结构一致性、对象完整性和约束满足方面存在不足,难以有效利用反馈。
📝 摘要(中文)
本文介绍GeoBuildBench,一个旨在评估大型语言模型和多模态智能体是否能将非正式的自然语言平面几何问题转化为可执行的几何构造的基准。与侧重于答案正确性或静态图解释的现有几何基准不同,GeoBuildBench将几何图视为交互式构造任务:给定一个文本问题,智能体必须生成一个特定领域的语言(DSL)程序来生成满足明确指定的几何对象和可验证约束的图。该基准包含489个中文教科书风格的问题,通过自动过滤和人工验证进行整理,以确保文本完整、可构造的问题规范。我们在有界迭代环境中评估了几种最先进的多模态模型,结果表明,尽管成功率尚可,但模型经常表现出结构性幻觉、对象缺失以及未能满足几何约束的情况,并且利用视觉和基于约束的反馈进行自我纠正的能力有限。这些结果表明,几何构造是超越文本或视觉合理性的、基于执行推理的严格测试平台。我们的基准和代码已公开。
🔬 方法详解
问题定义:论文旨在解决现有几何问题基准测试的局限性,即它们主要关注答案的正确性或静态图像的理解,而忽略了从自然语言描述到可执行几何构造的整个过程。现有方法无法有效评估模型在理解几何约束、生成可执行代码以及进行交互式修正方面的能力。
核心思路:论文的核心思路是将几何问题视为一个交互式的构造任务。给定一个自然语言描述的几何问题,模型需要生成一段领域特定语言(DSL)代码,这段代码能够逐步构建出满足问题描述中所有几何对象和约束条件的几何图形。通过这种方式,可以更全面地评估模型对几何概念的理解和推理能力。
技术框架:GeoBuildBench基准测试包含以下几个关键组成部分:1) 一个包含489个中文教科书风格几何问题的集合,这些问题经过精心筛选和验证,确保文本描述完整且问题可构造。2) 一个领域特定语言(DSL),用于描述几何构造步骤。3) 一个评估框架,用于评估模型生成的DSL代码是否能够正确构造出满足问题描述的几何图形。评估过程包括检查是否所有指定的几何对象都已创建,以及是否满足所有几何约束。模型在一个有界迭代环境中运行,允许模型在每次迭代中利用视觉和约束反馈进行自我修正。
关键创新:GeoBuildBench的关键创新在于它将几何问题建模为一个交互式的构造任务,并提供了一个用于评估模型在这种任务上的表现的基准测试。与以往的基准测试相比,GeoBuildBench更侧重于评估模型生成可执行代码的能力,以及模型在交互过程中利用反馈进行自我修正的能力。
关键设计:GeoBuildBench的关键设计包括:1) 精心设计的DSL,能够简洁地描述各种几何构造步骤。2) 自动过滤和人工验证相结合的问题筛选流程,确保问题质量。3) 一个迭代式的评估框架,允许模型在每次迭代中利用视觉和约束反馈进行自我修正。论文没有详细说明具体的参数设置、损失函数或网络结构,因为该基准测试主要关注的是评估现有模型的能力,而不是提出新的模型架构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有最先进的多模态模型在GeoBuildBench上表现出一定的成功率,但仍存在结构性幻觉、对象缺失和约束违反等问题。模型在利用视觉和约束反馈进行自我纠正方面的能力有限,表明几何构造任务对模型的推理和执行能力提出了更高的要求。
🎯 应用场景
GeoBuildBench可用于评估和提升大型语言模型和多模态智能体在几何推理、代码生成和交互式问题解决方面的能力。该基准测试可以推动相关技术在教育、计算机辅助设计和机器人等领域的应用,例如智能辅导系统、自动化设计工具和自主机器人。
📄 摘要(原文)
We introduce GeoBuildBench, a benchmark designed to evaluate whether large language models and multimodal agents can ground informal natural-language plane geometry problems into executable geometric constructions. Unlike existing geometry benchmarks that focus on answer correctness or static diagram interpretation, GeoBuildBench treats geometry diagram as an interactive construction task: given a textual problem, an agent must generate a domain-specific language (DSL) program to produce a diagram satisfying explicitly specified geometric objects and verifiable constraints. The benchmark features 489 Chinese textbook-style problems, curated through automated filtering and human validation to ensure text-complete, constructible problem specifications. We evaluate several state-of-the-art multimodal models in a bounded iterative setting and show that, despite reasonable success rates, models frequently exhibit structural hallucinations, missing objects, and failures to satisfy geometric constraints, with limited ability to exploit visual and constraint-based feedback for self-correction. These results highlight geometry construction as a rigorous testbed for grounded, executable reasoning beyond textual or visual plausibility. Our benchmark and code are publicly available.