EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning
作者: Zhihao Li, Yao Du, Yang Liu, Yan Zhang, Yufang Liu, Mengdi Zhang, Xunliang Cai
分类: cs.CV
发布日期: 2024-08-21
💡 一句话要点
EAGLE:通过LLM驱动的视觉指令调优提升几何推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 几何推理 视觉指令调优 视觉增强 思维链推理
📋 核心要点
- 现有多模态大语言模型在几何问题求解中面临视觉感知不足的挑战,导致不准确的几何理解和幻觉。
- EAGLE框架通过两阶段视觉增强,利用LLM驱动的视觉指令调优,提升模型对几何图形的感知和推理能力。
- EAGLE-7B在GeoQA和MathVista等基准测试中显著超越现有模型,验证了其在几何推理方面的有效性。
📝 摘要(中文)
多模态大型语言模型(MLLM)近年来发展迅速,并在各种多模态任务中表现出色。然而,它们在解决数学几何问题方面仍然存在困难,这需要卓越的视觉感知能力。现有的MLLM主要优化LLM骨干网络以获得几何推理能力,而很少强调视觉理解的改进。本文首先研究了MLLM在面对几何图时的视觉感知性能。我们的研究结果表明,当前的MLLM严重受到不准确的几何感知和幻觉的影响。为了解决这些限制,我们提出了一种新颖的两阶段端到端视觉增强MLLM框架EAGLE,旨在通过LLM驱动的视觉指令调优来提升几何推理能力。具体来说,在初步阶段,我们将几何图像-标题对输入到我们的MLLM中,该模型包含一个完全微调的CLIP ViT和一个冻结的LLM,旨在使我们的模型具备基本的几何知识。在随后的高级阶段,我们将LoRA模块集成到视觉编码器中,并解冻LLM骨干网络。这使得模型能够利用问题-答案对中固有的CoT(思维链)推理,引导MLLM关注细微的视觉线索,并增强其整体感知能力。此外,我们在两个阶段都优化了跨模态投影器,以促进自适应的视觉-语言对齐。经过两阶段的视觉增强后,我们开发了几何专家模型EAGLE-7B。在流行的基准测试中进行的大量实验证明了我们模型的有效性。例如,在GeoQA基准测试中,EAGLE-7B不仅超越了示例性的G-LLaVA 7B模型2.9%,而且略微优于更大的G-LLaVA 13B模型。在MathVista基准测试中,与专有模型GPT-4V相比,EAGLE-7B实现了显著的3.8%的改进。
🔬 方法详解
问题定义:现有的多模态大语言模型(MLLM)在解决需要精确视觉感知的几何问题时表现不佳。它们通常依赖于优化LLM骨干网络来提升几何推理能力,而忽略了对视觉理解能力的直接提升。这导致模型在处理几何图形时出现不准确的感知和幻觉,严重影响了解题的准确性。
核心思路:EAGLE的核心思路是通过两阶段的视觉增强来提升MLLM的几何推理能力。第一阶段侧重于赋予模型基本的几何知识,第二阶段则通过LoRA和解冻LLM骨干网络,使模型能够利用CoT推理,关注细微的视觉线索。这种分阶段的方法允许模型逐步学习复杂的几何概念和关系。
技术框架:EAGLE是一个两阶段的端到端视觉增强MLLM框架。第一阶段,模型接收几何图像-标题对,通过完全微调CLIP ViT和冻结LLM,学习基本的几何知识。第二阶段,将LoRA模块集成到视觉编码器中,并解冻LLM骨干网络,利用问题-答案对中的CoT推理,引导模型关注视觉线索。两个阶段都优化了跨模态投影器,以实现更好的视觉-语言对齐。最终得到几何专家模型EAGLE-7B。
关键创新:EAGLE的关键创新在于其两阶段的视觉增强策略,以及在第二阶段中LoRA模块和解冻LLM骨干网络的结合使用。这种方法允许模型在学习基本几何知识的基础上,进一步提升对细微视觉线索的感知能力,并利用CoT推理来指导解题过程。与现有方法相比,EAGLE更注重视觉理解能力的提升,而非仅仅依赖于LLM的推理能力。
关键设计:在第一阶段,CLIP ViT被完全微调,以适应几何图像的特征提取。在第二阶段,LoRA模块被集成到视觉编码器中,以减少训练参数量,并允许模型在微调过程中保留其预训练的知识。LLM骨干网络被解冻,以便更好地利用CoT推理。跨模态投影器在两个阶段都被优化,以确保视觉和语言特征的有效对齐。损失函数的设计也考虑了CoT推理的因素,以鼓励模型生成更准确的推理过程。
🖼️ 关键图片
📊 实验亮点
EAGLE-7B在GeoQA基准测试中超越了G-LLaVA 7B模型2.9%,并略微优于G-LLaVA 13B模型。在MathVista基准测试中,EAGLE-7B与专有模型GPT-4V相比,实现了显著的3.8%的改进。这些结果表明,EAGLE在几何推理方面具有显著的优势,并且能够有效地提升多模态大语言模型的视觉感知能力。
🎯 应用场景
EAGLE的研究成果可应用于教育领域,例如开发智能几何辅导系统,帮助学生理解和解决几何问题。此外,该技术还可应用于计算机辅助设计(CAD)、机器人视觉等领域,提升机器对几何环境的理解和操作能力。未来,该研究有望推动多模态大语言模型在更广泛的视觉推理任务中的应用。
📄 摘要(原文)
Multi-modal Large Language Models have recently experienced rapid developments and excel in various multi-modal tasks. However, they still struggle with mathematical geometric problem solving, which requires exceptional visual perception proficiency. Existing MLLMs mostly optimize the LLM backbone to acquire geometric reasoning capabilities, while rarely emphasizing improvements in visual comprehension. In this paper, we first investigate the visual perception performance of MLLMs when facing geometric diagrams. Our findings reveal that current MLLMs severely suffer from inaccurate geometric perception and hallucinations. To address these limitations, we propose EAGLE, a novel two-stage end-to-end visual enhancement MLLM framework designed to ElevAte Geometric reasoning through LLM-Empowered visual instruction tuning. Specifically, in the preliminary stage, we feed geometric image-caption pairs into our MLLM that contains a fully fine-tuning CLIP ViT and a frozen LLM, aiming to endow our model with basic geometric knowledge. In the subsequent advanced stage, we incorporate LoRA modules into the vision encoder and unfreeze the LLM backbone. This enables the model to leverage the inherent CoT rationales within question-answer pairs, guiding the MLLM to focus on nuanced visual cues and enhancing its overall perceptual capacity. Moreover, we optimize the cross-modal projector in both stages to foster adaptive visual-linguistic alignments. After the two-stage visual enhancement, we develop the geometry expert model EAGLE-7B. Extensive experiments on popular benchmarks demonstrate the effectiveness of our model. For example, on the GeoQA benchmark, EAGLE-7B not only surpasses the exemplary G-LLaVA 7B model by 2.9%, but also marginally outperforms the larger G-LLaVA 13B model. On the MathVista benchmark, EAGLE-7B achieves remarkable 3.8% improvements compared with the proprietary model GPT-4V.