Clarification as Supervision: Reinforcement Learning for Vision-Language Interfaces

📄 arXiv: 2509.26594v1 📥 PDF

作者: John Gkountouras, Ivan Titov

分类: cs.LG, cs.CL, cs.CV

发布日期: 2025-09-30


💡 一句话要点

提出自适应澄清强化学习(AC-RL),提升视觉语言模型在视觉数学推理中的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 强化学习 视觉数学推理 澄清请求 隐式监督

📋 核心要点

  1. 现有视觉语言模型在视觉数学推理中,由于图像描述缺乏推理所需的精确细节,导致推理器性能受限。
  2. AC-RL通过强化学习,利用推理器在训练时的澄清请求作为反馈,促使模型生成更全面的初始描述。
  3. 实验表明,AC-RL在多个视觉数学推理基准上显著提升了准确率,并有效减少了澄清请求。

📝 摘要(中文)

本文提出了一种自适应澄清强化学习(AC-RL)方法,旨在解决视觉语言模型在视觉数学推理任务中,因忽略推理系统所需的精确细节而导致的接口不匹配问题。现有模型通常训练生成面向人类读者的图像描述,但这些描述往往缺乏推理系统所需的关键视觉信息。AC-RL通过交互式学习,让视觉模型了解推理器需要哪些信息。核心思想是,将训练期间的澄清请求视为信息缺口,通过惩罚需要澄清才能成功的案例,促使模型生成更全面的初始描述,从而使推理器能够一次性解决问题。实验结果表明,AC-RL在七个视觉数学推理基准测试中,平均准确率比预训练基线提高了4.4个百分点,并能减少高达39%的澄清请求。该方法将澄清视为一种隐式监督,证明了视觉语言接口可以通过纯交互式学习有效地学习,而无需显式标注。

🔬 方法详解

问题定义:现有视觉语言模型在处理视觉数学推理任务时,通常被训练成生成面向人类的图像描述。这些描述往往不够精确,忽略了推理器所需的关键视觉信息,导致推理器无法有效利用视觉信息进行推理。因此,问题的核心在于如何让视觉语言模型生成更适合推理器使用的图像描述。

核心思路:论文的核心思路是将澄清请求视为一种隐式监督信号。当推理器需要澄清时,说明当前的图像描述不够完整或精确。通过强化学习,模型学习减少澄清请求,从而生成更全面的初始描述,使推理器能够一次性解决问题。这种方法避免了对显式标注的需求,而是通过交互式学习来提升模型的性能。

技术框架:AC-RL的整体框架包含一个视觉语言模型(负责生成图像描述)和一个推理器(负责进行数学推理)。在训练过程中,视觉语言模型首先生成图像描述,然后推理器尝试利用该描述解决问题。如果推理器需要更多信息,它可以提出澄清请求。AC-RL使用强化学习来训练视觉语言模型,奖励成功解决问题的案例,并惩罚需要澄清才能成功的案例。

关键创新:AC-RL的关键创新在于将澄清请求作为一种隐式监督信号,并利用强化学习来优化视觉语言模型。与传统的监督学习方法不同,AC-RL不需要显式的标注,而是通过与推理器的交互来学习。这种方法更灵活,更能够适应不同的推理任务。

关键设计:AC-RL的关键设计包括奖励函数和策略梯度算法。奖励函数的设计旨在鼓励模型生成更全面的初始描述,减少澄清请求。策略梯度算法用于更新视觉语言模型的参数,使其能够更好地适应推理器的需求。具体的奖励函数可以设计为:如果推理器一次性解决问题,则给予正向奖励;如果推理器需要澄清才能解决问题,则给予较小的正向奖励或负向奖励;如果推理器无法解决问题,则给予负向奖励。策略梯度算法可以使用常见的REINFORCE算法或Actor-Critic算法。

📊 实验亮点

AC-RL在七个视觉数学推理基准测试中,平均准确率比预训练基线提高了4.4个百分点。更重要的是,分析表明,如果允许澄清请求,AC-RL可以减少高达39%的澄清请求。这表明AC-RL能够显著提升视觉语言模型生成高质量图像描述的能力,从而提高推理器的性能。

🎯 应用场景

该研究成果可应用于各种需要视觉信息辅助推理的场景,例如机器人导航、智能客服、自动驾驶等。通过提升视觉语言模型对视觉信息的理解和表达能力,可以提高这些应用在复杂环境中的鲁棒性和准确性。未来,该方法有望扩展到更广泛的视觉语言任务中,促进人工智能在实际应用中的发展。

📄 摘要(原文)

Recent text-only models demonstrate remarkable mathematical reasoning capabilities. Extending these to visual domains requires vision-language models to translate images into text descriptions. However, current models, trained to produce captions for human readers, often omit the precise details that reasoning systems require. This creates an interface mismatch: reasoners often fail not due to reasoning limitations but because they lack access to critical visual information. We propose Adaptive-Clarification Reinforcement Learning (AC-RL), which teaches vision models what information reasoners need through interaction. Our key insight is that clarification requests during training reveal information gaps; by penalizing success that requires clarification, we create pressure for comprehensive initial captions that enable the reasoner to solve the problem in a single pass. AC-RL improves average accuracy by 4.4 points over pretrained baselines across seven visual mathematical reasoning benchmarks, and analysis shows it would cut clarification requests by up to 39% if those were allowed. By treating clarification as a form of implicit supervision, AC-RL demonstrates that vision-language interfaces can be effectively learned through interaction alone, without requiring explicit annotations.