Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning
作者: Hao Yu, Shuning Jia, Guanghao Li, Wenhao Jiang, Chun Yuan
分类: cs.LG
发布日期: 2026-02-26
🔗 代码/项目: GITHUB
💡 一句话要点
提出GeoDPO,通过翻译器引导的强化学习提升VLM的几何感知能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉语言模型 几何感知 强化学习 领域特定语言 翻译器 图表理解 DPO
📋 核心要点
- 视觉语言模型在几何推理方面存在不足,主要原因是它们对图表基本元素的感知能力有限。
- GeoDPO通过训练一个自然语言到领域特定语言的翻译器,利用强化学习来提升模型的几何感知能力。
- 实验表明,GeoDPO在领域内和领域外数据集上均取得了显著提升,尤其在下游推理任务中表现突出。
📝 摘要(中文)
视觉-语言模型(VLMs)由于对基本图表元素的感知有限,常常难以进行几何推理。为了解决这个问题,我们引入了GeoPerceive,一个包含图表实例和领域特定语言(DSL)表示的基准,以及一个高效的自动数据生成流程。这种设计使得能够独立于推理来评估几何感知。为了利用GeoPerceive提供的数据来增强VLMs的几何感知能力,我们提出了GeoDPO,一个翻译器引导的强化学习(RL)框架。GeoDPO采用一个NL-to-DSL翻译器,该翻译器在GeoPerceive的数据引擎生成的合成对上进行训练,以桥接自然语言和DSL。这个翻译器有助于计算细粒度的、DSL级别的分数,这些分数作为强化学习中的奖励信号。我们在几何感知以及下游推理任务的领域内和领域外数据集上评估了GeoDPO。实验结果表明,虽然监督微调(SFT)仅提供边际改进,甚至可能损害领域外场景中的性能,但GeoDPO实现了显著的收益:在领域内数据上+26.5%,在领域外数据上+8.0%,在下游推理任务上+39.0%。这些发现强调了GeoDPO优于SFT的性能和泛化能力。所有代码已在https://github.com/Longin-Yu/GeoPerceive上发布,以确保可重复性。
🔬 方法详解
问题定义:论文旨在解决视觉语言模型(VLM)在几何感知方面的不足,具体表现为对图表中基本几何元素的理解和推理能力较弱。现有方法,如直接的监督微调(SFT),往往只能带来边际提升,甚至可能损害模型在领域外的泛化能力。因此,如何有效提升VLM的几何感知能力,使其能够更好地理解和处理几何相关的任务,是本文要解决的核心问题。
核心思路:论文的核心思路是利用领域特定语言(DSL)作为桥梁,将自然语言描述的几何问题转化为机器可理解和操作的DSL表示,并通过强化学习来优化VLM的几何感知能力。通过训练一个NL-to-DSL翻译器,将自然语言指令转化为DSL代码,然后利用DSL代码的执行结果作为奖励信号,引导VLM学习更准确的几何感知策略。这种方法能够提供细粒度的反馈,从而更有效地提升模型的几何感知能力。
技术框架:GeoDPO框架主要包含以下几个模块:1) GeoPerceive数据引擎:用于生成包含图表实例和DSL表示的合成数据。2) NL-to-DSL翻译器:将自然语言指令翻译成DSL代码,该翻译器在GeoPerceive生成的数据上进行训练。3) 强化学习模块:利用翻译器生成的DSL代码的执行结果作为奖励信号,通过DPO(Direct Preference Optimization)算法优化VLM的几何感知能力。整体流程是,首先将自然语言问题输入VLM,VLM生成DSL代码,然后执行DSL代码得到结果,根据结果计算奖励,最后利用奖励更新VLM的策略。
关键创新:GeoDPO的关键创新在于引入了翻译器引导的强化学习框架,利用DSL作为中间表示,实现了对VLM几何感知能力的细粒度控制和优化。与传统的监督微调方法相比,GeoDPO能够提供更丰富的反馈信息,从而更有效地提升模型的几何感知能力和泛化能力。此外,GeoPerceive基准的提出也为几何感知任务的评估和研究提供了新的资源。
关键设计:GeoDPO的关键设计包括:1) DSL的设计:DSL需要能够精确地描述图表中的几何元素和关系,并支持各种几何操作。2) NL-to-DSL翻译器的训练:翻译器的训练需要大量的合成数据,并且需要保证翻译的准确性。3) 奖励函数的设计:奖励函数需要能够准确地反映VLM的几何感知能力,并且需要能够引导VLM学习更准确的几何感知策略。论文采用DPO算法进行强化学习,避免了传统RL中reward shaping的困难。具体参数设置和网络结构细节在论文中有详细描述。
📊 实验亮点
实验结果表明,GeoDPO在领域内数据上取得了+26.5%的显著提升,在领域外数据上提升了+8.0%,在下游推理任务上更是提升了+39.0%。这些结果表明,GeoDPO不仅能够有效提升VLM的几何感知能力,而且具有良好的泛化能力,优于传统的监督微调方法。
🎯 应用场景
该研究成果可应用于各种需要几何推理的场景,例如机器人导航、自动驾驶、CAD设计、图像编辑和增强现实等。通过提升VLM的几何感知能力,可以使这些应用更加智能和可靠。未来,该方法还可以扩展到其他类型的视觉推理任务,例如物理推理和空间推理,具有广阔的应用前景。
📄 摘要(原文)
Vision-language models (VLMs) often struggle with geometric reasoning due to their limited perception of fundamental diagram elements. To tackle this challenge, we introduce GeoPerceive, a benchmark comprising diagram instances paired with domain-specific language (DSL) representations, along with an efficient automatic data generation pipeline. This design enables the isolated evaluation of geometric perception independently from reasoning. To exploit the data provided by GeoPerceive for enhancing the geometric perception capabilities of VLMs, we propose GeoDPO, a translator-guided reinforcement learning (RL) framework. GeoDPO employs an NL-to-DSL translator, which is trained on synthetic pairs generated by the data engine of GeoPerceive, to bridge natural language and DSL. This translator facilitates the computation of fine-grained, DSL-level scores, which serve as reward signals in reinforcement learning. We assess GeoDPO on both in-domain and out-of-domain datasets, spanning tasks in geometric perception as well as downstream reasoning. Experimental results demonstrate that, while supervised fine-tuning (SFT) offers only marginal improvements and may even impair performance in out-of-domain scenarios, GeoDPO achieves substantial gains: $+26.5\%$ on in-domain data, $+8.0\%$ on out-of-domain data, and $+39.0\%$ on downstream reasoning tasks. These findings underscore the superior performance and generalization ability of GeoDPO over SFT. All codes are released at https://github.com/Longin-Yu/GeoPerceive to ensure reproducibility.