Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

📄 arXiv: 2602.21743 📥 PDF

作者: Jinghan Li, Junfeng Fang, Jinda Lu, Yuan Wang, Xiaoyan Guo, Tianyu Zhang, Xiang Wang, Xiangnan He

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出难度感知分组归一化(Durian),提升多模态LLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 强化学习 分组归一化 难度感知 视觉问答 推理能力

📋 核心要点

  1. 现有基于强化学习的LLM推理方法在多模态场景下,因标准差归一化易受极端样本影响而失效。
  2. 提出难度感知分组归一化(Durian),根据样本难度重新分组并共享组内标准差,降低极端值影响。
  3. 实验表明,Durian在多个多模态推理基准上显著提升性能,验证了其有效性。

📝 摘要(中文)

本文针对多模态大型语言模型(LLM)推理能力提升问题,指出基于标准差(std)的归一化方法在多模态场景下容易受到极端样本的干扰,导致训练不稳定。这是因为多模态模型对感知和推理错误更加敏感。为了解决这个问题,作者提出了一种难度感知分组归一化方法(Durian)。该方法通过视觉熵(衡量感知复杂度)和模型置信度(衡量推理不确定性)来表征样本的难度,并根据难度级别对样本进行重新分组,在每个组内共享标准差。Durian在保留组内区分的同时,消除了对极端情况的敏感性,从而在多个多模态推理基准测试中实现了显著的性能提升。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(LLM)在进行推理时,由于输入数据包含视觉信息,模型更容易受到噪声和异常值的影响,导致训练不稳定和性能下降的问题。现有的基于强化学习的方法,如GRPO,依赖于基于标准差的归一化,而这种归一化方式在多模态场景下容易被极端样本扭曲,从而影响模型的学习效果。

核心思路:论文的核心思路是根据样本的难度对样本进行分组,并在每个难度组内进行归一化。这样可以确保相似难度的样本共享统计信息,从而减少极端样本对归一化的影响。样本难度由两个因素决定:感知复杂度(通过视觉熵衡量)和推理不确定性(通过模型置信度衡量)。

技术框架:Durian方法主要包含以下几个步骤:1) 计算每个样本的视觉熵,用于衡量感知复杂度;2) 计算模型对每个样本的置信度,用于衡量推理不确定性;3) 结合视觉熵和模型置信度,将样本划分为不同的难度组;4) 在每个难度组内,计算均值和标准差,并进行归一化。该方法可以嵌入到现有的基于强化学习的训练框架中,如GRPO。

关键创新:Durian的关键创新在于提出了难度感知的分组归一化方法。与传统的归一化方法不同,Durian不是在整个数据集上进行归一化,而是根据样本的难度进行分组,并在每个组内进行归一化。这种方法可以有效地减少极端样本对归一化的影响,从而提高模型的训练稳定性和性能。

关键设计:视觉熵的计算方式使用了图像处理中的标准方法。模型置信度通过模型输出的softmax概率的最大值来衡量。难度分组的具体实现方式未知,论文中可能没有详细说明。损失函数与原始的GRPO保持一致,没有进行修改。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的Durian方法在多个多模态推理基准测试中取得了显著的性能提升。具体的数据和对比基线在摘要中未给出,但强调了Durian在保留组内区分的同时,消除了对极端情况的敏感性,从而实现了性能的提升。具体提升幅度未知。

🎯 应用场景

该研究成果可应用于各种需要多模态信息融合和推理的场景,例如视觉问答、图像描述、机器人导航等。通过提高多模态LLM的推理能力,可以提升这些应用在复杂环境下的性能和鲁棒性,例如在自动驾驶中,模型可以更准确地理解周围环境,从而做出更安全的决策。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) and Group Relative Policy Optimization (GRPO) have significantly advanced the reasoning capabilities of large language models. Extending these methods to multimodal settings, however, faces a critical challenge: the instability of std-based normalization, which is easily distorted by extreme samples with nearly positive or negative rewards. Unlike pure-text LLMs, multimodal models are particularly sensitive to such distortions, as both perceptual and reasoning errors influence their responses. To address this, we characterize each sample by its difficulty, defined through perceptual complexity (measured via visual entropy) and reasoning uncertainty (captured by model confidence). Building on this characterization, we propose difficulty-aware group normalization (Durian), which re-groups samples by difficulty levels and shares the std within each group. Our approach preserves GRPO's intra-group distinctions while eliminating sensitivity to extreme cases, yielding significant performance gains across multiple multimodal reasoning benchmarks.