Structured Role-Aware Policy Optimization for Multimodal Reasoning

📄 arXiv: 2605.07274v1 📥 PDF

作者: Bingqing Jiang, Difan Zou

分类: cs.AI, cs.LG

发布日期: 2026-05-08

备注: 32 pages


💡 一句话要点

提出结构化角色感知策略优化SRPO,提升多模态推理中证据可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 强化学习 视觉语言模型 角色感知 策略优化 信用分配 证据推理

📋 核心要点

  1. 现有方法难以区分多模态推理中不同token的功能角色,导致奖励分配不明确,影响证据相关性。
  2. 提出SRPO,通过角色感知的token级别信用分配,区分感知token和推理token,优化策略。
  3. 实验表明SRPO能有效提高基于证据的推理能力,证实了角色感知优化在多模态推理中的重要性。

📝 摘要(中文)

本文针对大型视觉语言模型(LVLMs)中基于可验证奖励的强化学习(RLVR)在多模态推理中的应用进行了研究。现有方法通常在序列级别分配最终答案奖励,无法区分不同token的功能角色,难以判断正确答案是否由任务相关的视觉证据支持。本文从角色感知的token级别信用分配角度重新审视多模态RLVR,将结构化响应分解为用于提取视觉证据的感知token和用于从证据推导答案的推理token。基于此,提出了结构化角色感知策略优化(SRPO),在不改变奖励函数的情况下,将序列级别的GRPO优势细化为角色感知的token级别优势。SRPO通过自蒸馏的on-policy对比分配角色特定的信用:感知token根据原始与损坏的视觉输入下的视觉依赖性进行强调,而推理token根据与生成的感知的token的一致性进行强调。这些角色特定的信号通过共享的轨迹级别基线统一,产生正token权重,调整相对更新幅度,同时保留原始GRPO奖励和优化方向,无需外部奖励模型或单独的teacher。在各种多模态推理基准上的实验表明,SRPO提高了基于证据的推理能力,突出了从统一的序列级别信用转向角色感知优化对于可靠的多模态推理的重要性。

🔬 方法详解

问题定义:现有基于序列级别的奖励分配方法在多模态推理中无法有效区分不同token的作用,比如哪些token负责提取视觉证据,哪些负责进行推理。这导致模型难以学习到证据充分的推理过程,最终答案的正确性无法保证。

核心思路:将响应分解为感知token和推理token,分别对应视觉证据提取和答案推导两个不同的角色。通过角色感知的信用分配机制,更精确地奖励或惩罚每个token,从而引导模型更好地利用视觉证据进行推理。

技术框架:SRPO基于现有的GRPO框架,主要流程如下:1) 将模型生成的响应分解为感知token和推理token;2) 通过自蒸馏的on-policy对比学习,为每个token分配角色特定的信用(即token权重);3) 使用共享的轨迹级别基线统一这些角色特定的信号;4) 使用带有token权重的优势函数来更新策略。

关键创新:核心创新在于角色感知的token级别信用分配机制。与传统的序列级别信用分配不同,SRPO能够根据token在推理过程中扮演的角色,更精细地调整每个token的权重,从而更有效地引导模型学习到证据充分的推理策略。

关键设计:感知token的权重根据其在原始视觉输入和损坏视觉输入下的依赖性来确定,即如果一个感知token对视觉输入的变化更敏感,那么它的权重就更高。推理token的权重则根据其与生成的感知token的一致性来确定。轨迹级别基线用于确保不同角色的token权重能够进行统一的比较和调整。优化目标仍然是最大化GRPO奖励,但使用token权重来调整更新幅度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SRPO在多个多模态推理基准上均取得了显著的性能提升,验证了其有效性。尤其是在需要更强证据推理能力的任务上,SRPO的提升更为明显。这表明角色感知的策略优化能够有效提高模型对视觉证据的利用能力,从而提升整体的推理性能。

🎯 应用场景

该研究成果可应用于各种需要多模态信息融合和推理的场景,例如视觉问答、图像描述、机器人导航等。通过提升模型对证据的感知和利用能力,可以提高这些应用系统的可靠性和准确性,从而在智能客服、自动驾驶等领域发挥重要作用。

📄 摘要(原文)

Reinforcement learning from verifiable rewards (RLVR), especially with Group Relative Policy Optimization (GRPO), has shown strong potential for improving the reasoning capabilities of large vision-language models (LVLMs). However, in multimodal reasoning, final-answer rewards are typically assigned at the sequence level and do not distinguish the functional roles of different tokens, making it difficult to determine whether a correct answer is supported by task-relevant visual evidence. In this paper, we revisit multimodal RLVR from the perspective of role-aware token-level credit assignment, where structured responses are decomposed into perception tokens for extracting visual evidence and reasoning tokens for deriving answers from that evidence. Based on this perspective, we propose Structured Role-aware Policy Optimization (SRPO), which refines the sequence-level GRPO advantage into role-aware token-level advantages without changing the reward function. Specifically, SRPO assigns role-specific credit by using self-distilled on-policy contrasts: perception tokens are emphasized according to their visual dependency under original versus corrupted visual inputs, while reasoning tokens are emphasized according to their consistency with the generated perception. These role-specific signals are further unified through a shared trajectory-level baseline, yielding positive token weights that adjust relative update magnitudes while preserving the original GRPO reward and optimization direction, without requiring external reward models or separate teachers. Experiments across diverse multimodal reasoning benchmarks show that SRPO improves evidence-grounded reasoning, highlighting the importance of moving beyond uniform sequence-level credit toward role-aware optimization for reliable multimodal reasoning.