Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning
作者: Hao Yu, Shuning Jia, Guanghao Li, Wenhao Jiang, Chun Yuan
分类: cs.LG
发布日期: 2026-02-28
💡 一句话要点
提出GeoDPO,通过翻译器引导的强化学习提升视觉语言模型中的几何感知能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉语言模型 几何感知 强化学习 领域特定语言 翻译器 数据生成 几何推理
📋 核心要点
- 视觉语言模型在几何推理方面存在不足,原因是它们对图表元素的感知能力有限,难以准确理解几何关系。
- 论文提出GeoDPO框架,利用翻译器将自然语言转换为领域特定语言,从而实现细粒度的几何感知奖励信号,指导强化学习。
- 实验表明,GeoDPO在领域内和领域外数据集上均优于监督微调,并在下游推理任务中取得了显著的性能提升。
📝 摘要(中文)
视觉语言模型(VLMs)由于对基本图表元素的感知有限,常常难以进行几何推理。为了解决这个问题,我们引入了GeoPerceive,一个包含图表实例和领域特定语言(DSL)表示的基准,以及一个高效的自动数据生成流程。这种设计使得能够独立于推理来评估几何感知。为了利用GeoPerceive提供的数据来增强VLMs的几何感知能力,我们提出了GeoDPO,一个翻译器引导的强化学习(RL)框架。GeoDPO采用一个NL-to-DSL翻译器,该翻译器在GeoPerceive的数据引擎生成的合成对上进行训练,以桥接自然语言和DSL。这个翻译器有助于计算细粒度的、DSL级别的分数,这些分数作为强化学习中的奖励信号。我们在几何感知以及下游推理任务的领域内和领域外数据集上评估GeoDPO。实验结果表明,虽然监督微调(SFT)仅提供边际改进,甚至可能损害领域外场景中的性能,但GeoDPO实现了显著的收益:在领域内数据上+26.5%,在领域外数据上+8.0%,在下游推理任务上+39.0%。这些发现强调了GeoDPO相对于SFT的卓越性能和泛化能力。所有代码均已发布,以确保可重复性。
🔬 方法详解
问题定义:视觉语言模型(VLMs)在处理涉及几何图形的理解和推理任务时,面临着几何感知能力不足的挑战。现有的VLMs难以准确识别和理解图表中的基本几何元素及其关系,导致推理性能下降。监督微调(SFT)虽然可以提升性能,但在领域外数据上泛化能力较差,甚至可能损害性能。
核心思路:论文的核心思路是利用领域特定语言(DSL)作为桥梁,将自然语言描述的几何问题转化为机器可理解的结构化表示,并以此为基础构建强化学习的奖励信号。通过训练一个NL-to-DSL翻译器,将自然语言问题转化为DSL代码,然后执行DSL代码得到几何属性,并与目标属性进行比较,从而得到细粒度的奖励信号。这种方法能够更精确地指导VLMs学习几何感知能力。
技术框架:GeoDPO框架包含以下几个主要模块:1) GeoPerceive基准数据集,包含图表实例和DSL表示;2) 自动数据生成流程,用于生成NL-DSL训练对;3) NL-to-DSL翻译器,将自然语言问题转化为DSL代码;4) 强化学习模块,利用翻译器生成的奖励信号优化VLMs的几何感知能力。整体流程是,首先利用GeoPerceive生成训练数据,然后训练NL-to-DSL翻译器,最后使用翻译器引导的强化学习来微调VLMs。
关键创新:GeoDPO的关键创新在于使用翻译器将自然语言和DSL连接起来,从而实现细粒度的奖励信号。与传统的基于自然语言的奖励信号相比,DSL级别的奖励信号更加精确,能够更有效地指导VLMs学习几何感知能力。此外,GeoDPO还提出了一个高效的自动数据生成流程,可以生成大量的NL-DSL训练对,从而提高翻译器的性能。
关键设计:NL-to-DSL翻译器采用Transformer架构,使用交叉熵损失进行训练。强化学习模块使用DPO(Direct Preference Optimization)算法,将奖励信号转化为策略梯度,从而优化VLMs的策略。奖励函数的设计至关重要,它基于DSL代码执行结果与目标属性之间的差异来计算。具体来说,奖励函数会考虑DSL代码生成的几何属性与ground truth之间的误差,误差越小,奖励越高。
📊 实验亮点
GeoDPO在领域内数据集上取得了+26.5%的显著提升,在领域外数据集上也有+8.0%的提升,表明其具有良好的泛化能力。更重要的是,在下游推理任务上,GeoDPO取得了高达+39.0%的性能提升,证明了其增强几何感知能力对实际应用的价值。相比之下,传统的监督微调(SFT)方法效果不佳,甚至可能在领域外数据上降低性能。
🎯 应用场景
该研究成果可应用于各种需要几何理解的场景,例如智能教育、CAD/CAM系统、机器人导航、图像分析和计算机辅助设计。通过提高视觉语言模型的几何感知能力,可以提升这些应用在处理复杂几何问题时的准确性和效率,例如自动生成几何证明、辅助设计复杂零件、实现更精确的机器人定位等。
📄 摘要(原文)
Vision-language models (VLMs) often struggle with geometric reasoning due to their limited perception of fundamental diagram elements. To tackle this challenge, we introduce GeoPerceive, a benchmark comprising diagram instances paired with domain-specific language (DSL) representations, along with an efficient automatic data generation pipeline. This design enables the isolated evaluation of geometric perception independently from reasoning. To exploit the data provided by GeoPerceive for enhancing the geometric perception capabilities of VLMs, we propose GeoDPO, a translator-guided reinforcement learning (RL) framework. GeoDPO employs an NL-to-DSL translator, which is trained on synthetic pairs generated by the data engine of GeoPerceive, to bridge natural language and DSL. This translator facilitates the computation of fine-grained, DSL-level scores, which serve as reward signals in reinforcement learning. We assess GeoDPO on both in-domain and out-of-domain datasets, spanning tasks in geometric perception as well as downstream reasoning. Experimental results demonstrate that, while supervised fine-tuning (SFT) offers only marginal improvements and may even impair performance in out-of-domain scenarios, GeoDPO achieves substantial gains: $+26.5\%$ on in-domain data, $+8.0\%$ on out-of-domain data, and $+39.0\%$ on downstream reasoning tasks. These findings underscore the superior performance and generalization ability of GeoDPO over SFT. All codes are released atthis https URLto ensure reproducibility.