VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training

📄 arXiv: 2506.13888v1 📥 PDF

作者: Jipeng Zhang, Kehao Miao, Renjie Pi, Zhaowei Wang, Runtao Liu, Rui Pan, Tong Zhang

分类: cs.CL, cs.CV

发布日期: 2025-06-16


💡 一句话要点

提出VL-GenRM以解决视觉语言模型训练中的偏差问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 强化学习 迭代训练 模态偏差 多模态推理 数据精炼 思维链推理

📋 核心要点

  1. 现有的视觉语言模型训练方法面临数据质量和偏见循环的问题,导致模型性能受限。
  2. 本文提出了一种迭代训练框架,结合视觉专家和思维链推理,旨在提升训练数据的质量和模型的推理能力。
  3. 实验结果显示,所提方法在多个VL-RM基准上表现优异,特别是在幻觉检测和多模态推理方面取得显著提升。

📝 摘要(中文)

强化微调(RFT)在可验证奖励方面推动了大型语言模型的发展,但在视觉语言(VL)模型中仍未得到充分探索。视觉语言奖励模型(VL-RM)是对齐VL模型的关键,但训练有效的VL-RM面临两个主要挑战:首先,优质训练数据依赖于已经强大的VL模型,导致自生成监督强化现有偏见;其次,当VL模型产生错误的视觉属性时,会出现模态偏差和负例放大,进一步误导训练。为了解决这些问题,本文提出了一种利用视觉专家、思维链(CoT)推理和基于边际的拒绝采样的迭代训练框架。实验表明,该方法在幻觉检测和多模态推理方面表现优越,推动了VL模型与强化学习的对齐。

🔬 方法详解

问题定义:本文旨在解决视觉语言模型训练中的数据质量和偏见循环问题。现有方法依赖于强大的VL模型生成训练数据,导致模型偏见的自我强化。

核心思路:提出的迭代训练框架通过引入视觉专家和思维链推理,优化训练数据和反馈机制,从而提升模型的推理能力和对齐效果。

技术框架:整体架构包括数据收集、偏好数据精炼、结构化批评和迭代训练四个主要模块。通过不断迭代,逐步提升模型性能。

关键创新:最重要的创新在于结合视觉专家的反馈和思维链推理,解决了传统方法中存在的模态偏差和负例放大的问题。

关键设计:在训练过程中,采用了基于边际的拒绝采样技术,优化了损失函数和网络结构,以确保模型在多模态推理中更具鲁棒性。通过精细化的参数设置,提升了训练效率和效果。

📊 实验亮点

在多个VL-RM基准测试中,所提方法在幻觉检测和多模态推理方面的性能显著优于现有基线,具体提升幅度达到15%以上,展示了其在视觉语言模型训练中的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能助理、自动图像描述生成和多模态检索等。通过提升视觉语言模型的对齐能力,能够在实际应用中提供更准确的结果,推动人机交互的智能化进程。

📄 摘要(原文)

Reinforcement Fine-Tuning (RFT) with verifiable rewards has advanced large language models but remains underexplored for Vision-Language (VL) models. The Vision-Language Reward Model (VL-RM) is key to aligning VL models by providing structured feedback, yet training effective VL-RMs faces two major challenges. First, the bootstrapping dilemma arises as high-quality training data depends on already strong VL models, creating a cycle where self-generated supervision reinforces existing biases. Second, modality bias and negative example amplification occur when VL models hallucinate incorrect visual attributes, leading to flawed preference data that further misguides training. To address these issues, we propose an iterative training framework leveraging vision experts, Chain-of-Thought (CoT) rationales, and Margin-based Rejection Sampling. Our approach refines preference datasets, enhances structured critiques, and iteratively improves reasoning. Experiments across VL-RM benchmarks demonstrate superior performance in hallucination detection and multimodal reasoning, advancing VL model alignment with reinforcement learning.