NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation

📄 arXiv: 2505.17121v2 📥 PDF

作者: Weiming Wu, Jin Ye, Zi-kang Wang, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo

分类: cs.CL, cs.AI

发布日期: 2025-05-21 (更新: 2025-10-02)

备注: 29 pages


💡 一句话要点

提出NeSyGeo神经符号框架,用于生成多样且泛化的多模态几何推理数据。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经符号推理 多模态学习 几何推理 数据生成 领域特定语言

📋 核心要点

  1. 现有几何推理数据生成方法在多样性和数值泛化方面存在局限性,阻碍了多模态大语言模型的发展。
  2. NeSyGeo框架通过神经符号结合的方式,利用领域特定语言和生成式动作,生成更丰富多样的几何推理数据。
  3. 实验表明,使用NeSyGeo生成的数据进行微调,能显著提升多模态大语言模型在几何推理任务上的性能。

📝 摘要(中文)

为了提升多模态大语言模型(MLLM)的几何推理能力,高质量的大规模推理数据至关重要。然而,现有的数据生成方法,无论是基于预定义模板还是受约束的符号证明器,都不可避免地面临多样性和数值泛化的限制。为了解决这些限制,我们提出了NeSyGeo,一种新颖的神经符号框架,用于生成几何推理数据。首先,我们提出了一种基于实体-属性-关系范式的领域特定语言,以全面表示平面几何的所有组成部分,以及在该符号空间内定义的生成动作。然后,我们设计了一个符号-视觉-文本管道,该管道合成符号序列,将其映射到视觉和文本表示,并通过反向搜索和前向验证生成推理路径。基于此框架,我们构建了包含10万个样本的NeSyGeo CoT和NeSyGeo-Caption数据集,并发布了一个新的基准NeSyGeo-Test,用于评估MLLM中的几何推理能力。实验表明,该方案显著且持续地提高了多个MLLM在强化和监督微调下的性能。仅使用4k个样本和两个epoch的强化微调,基础模型在MathVision上实现了高达+15.8%的改进,在MathVerse上实现了+8.4%的改进,在GeoQA上实现了+7.3%的改进。值得注意的是,一个4B模型可以被改进到在几何推理任务上优于同一系列的8B模型。

🔬 方法详解

问题定义:现有几何推理数据生成方法,如基于预定义模板或约束符号证明器的方法,在生成数据的多样性和数值泛化能力上存在瓶颈。这限制了多模态大语言模型(MLLM)在复杂几何推理任务上的性能提升。因此,需要一种能够生成大规模、高质量、多样化且具有良好泛化能力的几何推理数据的方法。

核心思路:NeSyGeo的核心思路是结合神经方法和符号方法,利用符号系统的精确性和可控性,以及神经模型的泛化能力。通过定义领域特定语言(DSL)来描述几何概念和关系,并设计生成动作来构建推理过程。然后,将符号序列映射到视觉和文本表示,从而生成多模态数据。这种结合使得生成的数据既具有结构化的知识表示,又具有视觉和文本的多样性。

技术框架:NeSyGeo框架包含三个主要阶段:1) 符号序列生成:使用领域特定语言(DSL)和生成动作,随机生成几何推理的符号序列。DSL基于实体-属性-关系范式,全面表示平面几何的组成部分。2) 多模态映射:将生成的符号序列映射到视觉和文本表示。视觉表示通过渲染引擎生成几何图形,文本表示则通过模板或语言模型生成自然语言描述。3) 推理路径生成:通过反向搜索和前向验证,生成推理路径,确保推理的正确性和连贯性。

关键创新:NeSyGeo的关键创新在于其神经符号结合的数据生成框架。与传统的基于模板或约束的方法相比,NeSyGeo能够生成更具多样性和泛化能力的数据。通过领域特定语言和生成动作的设计,可以灵活地控制数据的生成过程,并确保数据的结构化和语义正确性。此外,多模态映射使得生成的数据能够同时包含符号、视觉和文本信息,更符合实际应用场景。

关键设计:领域特定语言(DSL)的设计是关键。DSL需要能够全面表达平面几何的各种概念和关系,例如点、线、圆、角度、平行、垂直等。生成动作的设计也至关重要,需要保证生成的符号序列能够构成有效的几何推理过程。此外,反向搜索和前向验证算法的设计需要保证推理路径的正确性和连贯性。在多模态映射方面,如何有效地将符号序列映射到视觉和文本表示也是一个重要的设计考虑。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用NeSyGeo生成的数据进行微调,可以显著提升多模态大语言模型在几何推理任务上的性能。例如,仅使用4k个样本和两个epoch的强化微调,基础模型在MathVision上实现了高达+15.8%的改进,在MathVerse上实现了+8.4%的改进,在GeoQA上实现了+7.3%的改进。更重要的是,一个4B模型经过微调后,其几何推理能力甚至超过了同一系列的8B模型。

🎯 应用场景

NeSyGeo框架生成的几何推理数据可用于训练和评估多模态大语言模型(MLLM)的几何推理能力。该框架可以应用于教育领域,例如自动生成几何习题和提供解题思路。此外,还可以应用于机器人导航、自动驾驶等领域,提升机器人在复杂环境中的感知和推理能力。未来,该框架可以扩展到其他领域,例如物理推理、化学推理等。

📄 摘要(原文)

Obtaining large-scale, high-quality reasoning data is crucial for improving the geometric reasoning capabilities of multi-modal large language models (MLLMs). However, existing data generation methods, whether based on predefined tem plates or constrained symbolic provers, inevitably face diversity and numerical generalization limitations. To address these limitations, we propose NeSyGeo, a novel neuro-symbolic framework for generating geometric reasoning data. First, we propose a domain-specific language grounded in the entity-attributes-relations paradigm to comprehensively represent all components of plane geometry, along with generative actions defined within this symbolic space. We then design a symbolic-visual-text pipeline that synthesizes symbolic sequences, maps them to visual and textual representations and generates reasoning path with reverse search and forward validation. Based on this framework, we construct NeSyGeo CoT and NeSyGeo-Caption datasets, containing 100k samples, and release a new benchmark NeSyGeo-Test for evaluating geometric reasoning abilities in MLLMs. Experiments demonstrate that the proposal significantly and consistently improves the performance of multiple MLLMs under both reinforcement and supervised fine-tuning. With only 4k samples and two epochs of reinforcement fine-tuning, base models achieve improvements of up to +15.8% on MathVision, +8.4% on MathVerse, and +7.3% on GeoQA. Notably, a 4B model can be improved to outperform an 8B model from the same series on geometric reasoning tasks.s