Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

作者: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2025-09-29 (更新: 2025-11-19)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出Euclid30K数据集并微调视觉语言模型，显著提升其空间感知与推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 空间推理 几何问题求解 多模态学习 微调 Euclid30K数据集 Group Relative Policy Optimization

📋 核心要点

多模态大语言模型在空间智能方面存在不足，难以进行形状变换、关系推理等。
将欧几里得几何问题求解作为代理任务，通过构建Euclid30K数据集并进行微调来提升模型空间能力。
实验表明，该方法在多个空间推理基准测试上取得了显著的零样本性能提升，无需特定任务调整。

📝 摘要（中文）

空间智能，包括形状可视化、物体旋转、关系位置判断和数量估计等能力，对多模态大型语言模型(MLLMs)而言仍然是一个关键挑战。为了弥补这一差距，本文提出将欧几里得几何问题求解作为代理任务。具体而言，作者构建了一个名为Euclid30K的多模态数据集，包含约3万个平面和立体几何问题。此外，为了使模型能够学习和应用欧几里得原理，作者使用Group Relative Policy Optimization (GRPO)对来自Qwen2.5VL、Qwen3VL和RoboBrain2.0系列的七个模型变体（参数范围为3-72B）进行了微调，从而激发模型识别形状、计数、关联实体，并使用欧几里得原理执行多步演绎推理。实验表明，由此产生的模型在四个空间推理基准测试（Super-CLEVR、Omni3DBench、VSI-Bench和MindCube）上实现了显著的零样本增益，无需任何特定于任务的调整。值得注意的是，在Euclid30K上训练后，VSI-Bench的平均准确率从36.6%提高到41.8%（+5.2%），MindCube的平均准确率从31.4%提高到38.1%（+6.7%）。据我们所知，这是第一个系统性研究表明，以几何为中心的微调可以赋予视觉语言模型广泛可迁移的空间技能。

🔬 方法详解

问题定义：现有视觉语言模型在空间感知和推理方面能力不足，难以解决涉及几何形状、空间关系等复杂问题。现有方法缺乏有效的训练数据和学习策略，无法使模型充分理解和应用几何原理。

核心思路：将欧几里得几何问题求解作为代理任务，通过构建包含大量几何问题的多模态数据集，并采用合适的优化方法进行微调，从而提升模型对空间关系的理解和推理能力。这种方法的核心在于利用几何知识作为桥梁，将视觉信息与语言推理联系起来。

技术框架：整体框架包括数据构建和模型微调两个主要阶段。首先，构建Euclid30K数据集，包含平面和立体几何问题，每个问题包含图像和文本描述。然后，选择Qwen系列和RoboBrain2.0系列的模型作为基础模型，使用Group Relative Policy Optimization (GRPO)方法在Euclid30K数据集上进行微调。

关键创新：该论文的关键创新在于提出了一种以几何为中心的微调方法，通过将几何问题求解作为代理任务，有效地提升了视觉语言模型的空间感知和推理能力。与以往方法相比，该方法更加注重几何知识的学习和应用，能够使模型更好地理解和处理空间关系。

关键设计：Euclid30K数据集的设计考虑了问题的多样性和难度，包含了各种类型的平面和立体几何问题。GRPO优化方法旨在鼓励模型学习和应用欧几里得原理，通过比较不同策略的性能，选择能够更好地解决几何问题的策略。具体参数设置和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

在Euclid30K数据集上进行微调后，模型在四个空间推理基准测试上取得了显著的零样本性能提升。VSI-Bench的平均准确率从36.6%提高到41.8%（+5.2%），MindCube的平均准确率从31.4%提高到38.1%（+6.7%）。这些结果表明，以几何为中心的微调方法能够有效地提升视觉语言模型的空间感知和推理能力。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、智能家居等领域，提升机器人在复杂环境中的感知和决策能力。例如，机器人可以利用空间推理能力更好地理解周围环境，规划运动路径，并与人类进行更自然的交互。此外，该方法还可以应用于教育领域，辅助学生学习几何知识，提高空间想象能力。

📄 摘要（原文）

Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs). To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising approximately 30K plane and solid geometry problems. Furthermore, to enable the model to learn and apply Euclidean principles from these geometry problems, we fine-tuned seven model variants (spanning 3--72B parameters) from the Qwen2.5VL, Qwen3VL, and RoboBrain2.0 families using Group Relative Policy Optimization (GRPO), inspiring the models to identify shapes, count, and relate entities, and perform multi-step deductive reasoning using Euclidean principles. Our experiments demonstrate that the resulting models achieve substantial zero-shot gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench, VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after training on the Euclid30K, the mean VSI-Bench accuracy rose from 36.6\% to 41.8\% (+5.2\%), and the mean MindCube accuracy rose from 31.4\% to 38.1\% (+6.7\%). To our knowledge, this is the first systematic study showing that geometry-centric fine-tuning can confer vision-language models with broadly transferable spatial skills. Code and Euclid30K dataset can be found in \href{https://zgca-ai4edu.github.io/Euclids_Gift}{this}.

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理