Boosting MLLM Reasoning with Text-Debiased Hint-GRPO
作者: Qihan Huang, Weilong Dai, Jinlong Liu, Wanggui He, Hao Jiang, Mingli Song, Jingyuan Chen, Chang Yao, Jie Song
分类: cs.CV
发布日期: 2025-03-31 (更新: 2025-06-27)
🔗 代码/项目: GITHUB
💡 一句话要点
提出Hint-GRPO,通过文本去偏Hint机制提升MLLM在复杂多模态推理任务中的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 GRPO 推理能力 数据利用率 文本偏差 Hint机制 文本去偏校准
📋 核心要点
- 现有MLLM的GRPO算法在复杂多模态推理任务中面临数据利用率低和文本偏差两大挑战。
- Hint-GRPO通过自适应提示提升数据利用率,并利用图像信息校准文本预测,缓解文本偏差问题。
- 实验表明,Hint-GRPO显著提升了MLLM在多个数据集上的推理能力,优于现有方法。
📝 摘要(中文)
多模态大语言模型(MLLM)的推理能力因其卓越的问题解决能力而受到广泛研究。现有的推理方法分为两类:PRM(监督中间推理步骤)和ORM(监督最终结果)。最近,DeepSeek-R1挑战了PRM优于ORM的传统观点,它使用ORM方法(即GRPO)展示了强大的泛化性能。然而,当前的MLLM的GRPO算法仍然难以处理具有挑战性的复杂多模态推理任务(例如,数学推理)。本文揭示了阻碍GRPO在MLLM上性能的两个问题:数据利用率低和文本偏差。数据利用率低是指GRPO无法获得正向奖励来更新困难样本上的MLLM,而文本偏差是指MLLM在GRPO训练后绕过图像条件,仅依赖文本条件进行生成。为了解决这些问题,本文提出了Hint-GRPO,它通过自适应地为不同难度的样本提供提示来提高数据利用率,并通过在测试时使用图像条件校准token预测logits来减轻文本偏差。在三个基础MLLM和十一个数据集上的实验结果表明,我们提出的方法大大提高了原始MLLM的推理能力,表现出优于现有MLLM推理方法的性能。代码已开源。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在使用GRPO(Gradient Ratio Policy Optimization)进行训练时,在复杂多模态推理任务中表现不佳的问题。现有的GRPO方法在处理困难样本时,由于奖励信号稀疏,导致数据利用率低,并且容易产生文本偏差,即模型过度依赖文本信息而忽略图像信息,从而影响推理的准确性。
核心思路:论文的核心思路是通过引入Hint机制来提高数据利用率,并采用文本去偏校准来缓解文本偏差。Hint机制通过自适应地为不同难度的样本提供提示,使得模型更容易获得正向奖励,从而更好地学习。文本去偏校准则通过在测试时利用图像信息校准token预测logits,从而迫使模型更多地关注图像信息,减少对文本信息的过度依赖。
技术框架:Hint-GRPO的整体框架包括两个主要组成部分:Hint机制和文本去偏校准。Hint机制在训练阶段,根据样本的难度自适应地提供提示信息,帮助模型更好地理解和解决问题。文本去偏校准在测试阶段,利用图像信息校准模型的预测结果,减少文本偏差的影响。整个框架基于GRPO算法进行优化,通过奖励信号来指导模型的学习。
关键创新:论文的关键创新在于提出了Hint机制和文本去偏校准,有效地解决了MLLM在GRPO训练中面临的数据利用率低和文本偏差问题。Hint机制通过自适应提示提高了模型对困难样本的学习能力,而文本去偏校准则通过图像信息校准减少了模型对文本信息的过度依赖。这些创新使得Hint-GRPO在复杂多模态推理任务中取得了显著的性能提升。
关键设计:Hint机制的关键设计在于如何自适应地确定提示信息的强度。论文采用了一种基于样本难度的自适应策略,即对于难度较高的样本,提供更强的提示信息,而对于难度较低的样本,则提供较弱的提示信息。文本去偏校准的关键设计在于如何有效地利用图像信息校准token预测logits。论文采用了一种基于图像特征的校准方法,即利用图像特征来调整token预测logits的概率分布,从而使得模型更多地关注图像信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Hint-GRPO在多个数据集上显著提升了MLLM的推理能力。例如,在某个数学推理数据集上,Hint-GRPO相比于基线方法提升了超过10个百分点。此外,Hint-GRPO在文本偏差方面也取得了显著的改善,使得模型更加依赖图像信息进行推理。
🎯 应用场景
Hint-GRPO具有广泛的应用前景,可应用于需要复杂多模态推理的场景,例如视觉问答、图像描述生成、机器人导航等。该研究有助于提升多模态大语言模型在实际应用中的性能和可靠性,推动人工智能技术的发展。
📄 摘要(原文)
MLLM reasoning has drawn widespread research for its excellent problem-solving capability. Current reasoning methods fall into two types: PRM, which supervises the intermediate reasoning steps, and ORM, which supervises the final results. Recently, DeepSeek-R1 has challenged the traditional view that PRM outperforms ORM, which demonstrates strong generalization performance using an ORM method (i.e., GRPO). However, current MLLM's GRPO algorithms still struggle to handle challenging and complex multimodal reasoning tasks (e.g., mathematical reasoning). In this work, we reveal two problems that impede the performance of GRPO on the MLLM: Low data utilization and Text-bias. Low data utilization refers to that GRPO cannot acquire positive rewards to update the MLLM on difficult samples, and text-bias is a phenomenon that the MLLM bypasses image condition and solely relies on text condition for generation after GRPO training. To tackle these problems, this work proposes Hint-GRPO that improves data utilization by adaptively providing hints for samples of varying difficulty, and text-bias calibration that mitigates text-bias by calibrating the token prediction logits with image condition in test-time. Experiment results on three base MLLMs across eleven datasets demonstrate that our proposed methods advance the reasoning capability of original MLLM by a large margin, exhibiting superior performance to existing MLLM reasoning methods. Our code is available at https://github.com/hqhQAQ/Hint-GRPO.