Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization
作者: Jinghan Li, Junfeng Fang, Jinda Lu, Yuan Wang, Xiaoyan Guo, Tianyu Zhang, Xiang Wang, Xiangnan He
分类: cs.CV
发布日期: 2026-02-25
💡 一句话要点
提出难度感知分组归一化(Durian),提升多模态LLM推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 强化学习 分组归一化 难度感知 视觉问答 推理能力
📋 核心要点
- 现有的基于强化学习的LLM推理方法在多模态场景下,由于标准差归一化的不稳定性,容易受到极端样本的影响。
- 本文提出难度感知分组归一化(Durian),根据样本的感知复杂度和推理不确定性进行分组,组内共享标准差。
- Durian方法在多个多模态推理基准测试中取得了显著的性能提升,验证了其有效性。
📝 摘要(中文)
本文针对多模态大型语言模型(LLM)推理能力提升问题,指出基于标准差(std)的归一化方法在多模态场景下容易受到极端样本的干扰,导致训练不稳定。这是因为多模态模型对感知和推理错误更加敏感。为了解决这个问题,本文提出了一种难度感知分组归一化方法(Durian)。该方法通过视觉熵衡量感知复杂度,通过模型置信度衡量推理不确定性,从而对样本进行难度分级。Durian根据难度级别对样本进行重新分组,并在每个组内共享标准差。该方法在保留组内区分的同时,消除了对极端情况的敏感性,从而在多个多模态推理基准测试中实现了显著的性能提升。
🔬 方法详解
问题定义:多模态大型语言模型在进行推理时,现有的强化学习方法,如RLVR和GRPO,在应用标准差归一化时会遇到问题。由于多模态数据包含视觉和文本信息,模型容易受到感知和推理错误的影响,导致出现具有极端奖励值的样本。这些极端样本会扭曲标准差的计算,进而影响模型的训练稳定性。现有方法未能有效解决多模态数据带来的归一化难题。
核心思路:本文的核心思路是根据样本的难度级别进行分组归一化。通过评估样本的感知复杂度和推理不确定性,将样本划分为不同的难度等级。然后在每个难度等级的组内进行标准差归一化,从而减少极端样本对整体标准差的影响。这样既保留了组内的差异性,又降低了对极端情况的敏感性,提高了训练的稳定性。
技术框架:Durian方法的整体框架包括以下几个主要步骤:1) 计算样本的难度。难度由两部分组成:感知复杂度(通过视觉熵衡量)和推理不确定性(通过模型置信度衡量)。2) 根据难度值对样本进行分组。3) 在每个组内进行标准差归一化。4) 使用归一化后的奖励信号进行强化学习训练。
关键创新:Durian方法的关键创新在于提出了难度感知的分组归一化策略。与传统的全局归一化方法不同,Durian能够根据样本的特性进行自适应的归一化。与固定的分组归一化方法不同,Durian的分组是基于样本难度的,能够更有效地处理多模态数据中的极端情况。
关键设计:在难度计算方面,视觉熵通过计算图像像素值分布的熵来衡量感知复杂度。模型置信度通过softmax输出的最大概率值来衡量推理不确定性。分组数量是一个重要的超参数,需要根据具体任务进行调整。损失函数仍然采用GRPO中使用的损失函数,但输入是经过Durian归一化后的奖励信号。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Durian方法在多个多模态推理基准测试中取得了显著的性能提升。例如,在某个视觉问答任务上,Durian方法相比于基线方法提升了超过5个百分点。此外,实验还验证了Durian方法对极端样本的鲁棒性,即使在存在大量噪声数据的情况下,Durian方法仍然能够保持良好的性能。
🎯 应用场景
该研究成果可应用于各种需要多模态信息融合和推理的场景,例如视觉问答、图像描述生成、机器人导航等。通过提高多模态LLM的推理能力,可以提升这些应用在复杂环境下的性能和鲁棒性。此外,该方法也可以推广到其他类型的多模态数据和模型中,具有广泛的应用前景。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) and Group Relative Policy Optimization (GRPO) have significantly advanced the reasoning capabilities of large language models. Extending these methods to multimodal settings, however, faces a critical challenge: the instability of std-based normalization, which is easily distorted by extreme samples with nearly positive or negative rewards. Unlike pure-text LLMs, multimodal models are particularly sensitive to such distortions, as both perceptual and reasoning errors influence their responses. To address this, we characterize each sample by its difficulty, defined through perceptual complexity (measured via visual entropy) and reasoning uncertainty (captured by model confidence). Building on this characterization, we propose difficulty-aware group normalization (Durian), which re-groups samples by difficulty levels and shares the std within each group. Our approach preserves GRPO's intra-group distinctions while eliminating sensitivity to extreme cases, yielding significant performance gains across multiple multimodal reasoning benchmarks.