Toward an Artificial General Teacher: Procedural Geometry Data Generation and Visual Grounding with Vision-Language Models
作者: Hai Nguyen-Truong, Alper Balbay, Tunga Bayrak
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-04-06
💡 一句话要点
提出基于程序几何数据生成和视觉语言模型的几何教育视觉解释方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 指代图像分割 几何教育 程序数据生成 领域特定微调
📋 核心要点
- 现有RIS模型在几何图上表现差,因为自然图像和几何图存在领域差异,缺乏合适的训练数据。
- 提出全自动程序数据引擎,生成大量带像素级掩码和多样化语言描述的合成几何图,解决数据匮乏问题。
- 通过领域特定微调VLM,并引入几何感知的Buffered IoU指标,显著提升了几何图的指代图像分割性能。
📝 摘要(中文)
本文研究几何教育中的视觉解释问题,将其形式化为指代图像分割(RIS)任务:给定几何图和自然语言描述,生成所指几何元素的像素级掩码。由于自然图像和抽象几何示意图之间存在根本的领域差异,现有在RefCOCO等自然图像基准上训练的RIS模型在几何图上表现极差。为了解决缺乏合适训练数据的问题,我们提出了一个全自动的程序数据引擎,生成超过20万张带有像素级完美分割掩码和语言多样性指代表达式的合成几何图,无需手动标注。我们进一步提出了视觉语言模型(VLM)的领域特定微调,证明微调后的Florence-2实现了49%的IoU和85%的Buffered IoU(BIoU),而零样本设置下的IoU小于1%。我们引入了Buffered IoU,一种几何感知的评估指标,考虑了细结构定位,并表明它比标准IoU更好地反映了真实的分割质量。我们的结果为构建能够提供视觉基础的、逐步几何问题解释的人工通用教师(AGT)奠定了基础。
🔬 方法详解
问题定义:论文旨在解决几何教育中视觉解释的问题,具体表现为指代图像分割(RIS)任务。现有RIS模型在自然图像上表现良好,但由于几何图的抽象性和缺乏纹理等特点,直接应用到几何图上效果很差。缺乏高质量的几何图RIS训练数据是主要痛点。
核心思路:论文的核心思路是通过程序化生成大量合成几何图数据,并利用这些数据对视觉语言模型进行领域特定微调。通过这种方式,模型可以学习到几何图的特征表示,从而提高在几何图上的RIS性能。
技术框架:整体框架包含两个主要部分:1) 程序化数据生成引擎:该引擎能够自动生成包含各种几何图形、像素级分割掩码和自然语言描述的合成数据。2) 视觉语言模型微调:使用生成的数据对预训练的视觉语言模型(如Florence-2)进行微调,使其适应几何图的RIS任务。
关键创新:1) 全自动程序化数据生成引擎,能够生成大规模、高质量的几何图RIS数据集,无需人工标注。2) 提出了Buffered IoU (BIoU) 评估指标,该指标更关注几何图形的细结构定位,更符合几何图RIS任务的特点。3) 领域特定微调视觉语言模型,显著提升了在几何图上的RIS性能。
关键设计:数据生成引擎的设计考虑了各种几何图形的组合和变化,以及自然语言描述的多样性。Buffered IoU的计算方式考虑了预测掩码和真实掩码之间的距离,对细结构定位误差的惩罚较小。对Florence-2进行微调时,采用了领域特定的数据增强策略和损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过程序化数据生成和领域特定微调,Florence-2模型在几何图RIS任务上取得了显著提升,IoU从零样本的<1%提升到49%,Buffered IoU达到85%。Buffered IoU指标更好地反映了分割质量,验证了其在几何图RIS任务中的有效性。该研究为构建人工通用教师奠定了基础。
🎯 应用场景
该研究成果可应用于构建智能几何教学系统,为学生提供视觉化的几何概念解释和问题解答。通过视觉定位和自然语言描述,系统可以帮助学生更好地理解几何图形的构成和性质,提升学习效率。未来,该技术还可扩展到其他科学教育领域,例如物理、化学等,构建通用的人工智能教师。
📄 摘要(原文)
We study visual explanation in geometry education as a Referring Image Segmentation (RIS) problem: given a diagram and a natural language description, the task is to produce a pixel-level mask for the referred geometric element. However, existing RIS models trained on natural image benchmarks such as RefCOCO fail catastrophically on geometric diagrams due to the fundamental domain shift between photographic scenes and abstract, textureless schematics. To address the absence of suitable training data, we present a fully automated procedural data engine that generates over 200,000 synthetic geometry diagrams with pixel-perfect segmentation masks and linguistically diverse referring expressions, requiring zero manual annotation. We further propose domain-specific fine-tuning of vision-language models (VLMs), demonstrating that a fine-tuned Florence-2 achieves 49% IoU and 85% Buffered IoU (BIoU), compared to <1% IoU in zero-shot settings. We introduce Buffered IoU, a geometry-aware evaluation metric that accounts for thin-structure localization, and show that it better reflects true segmentation quality than standard IoU. Our results establish a foundation for building Artificial General Teachers (AGTs) capable of providing visually grounded, step-by-step explanations of geometry problems.