Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning

📄 arXiv: 2603.28618v1 📥 PDF

作者: Ziqi Miao, Haonan Jia, Lijun Li, Chen Qian, Yuan Xiong, Wenting Yan, Jing Shao

分类: cs.AI

发布日期: 2026-03-30

备注: 21 pages, 15 figures, 6 tables


💡 一句话要点

提出PRCO框架,通过感知-推理协同进化提升多模态推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 强化学习 视觉问答 感知推理协同 奖励函数设计

📋 核心要点

  1. 现有RLVR方法在多模态推理中存在感知瓶颈,共享奖励导致视觉证据提取的准确性难以提升。
  2. PRCO框架通过引入观察者和解决者双重角色,并采用角色特定的奖励信号,实现感知和推理的协同进化。
  3. 实验结果表明,PRCO在多个基准测试中显著提升了多模态推理的准确率,优于现有开源方法。

📝 摘要(中文)

本文提出了一种名为PRCO(Perception-Reasoning Coevolution)的双重角色强化学习框架,用于提升多模态大语言模型(MLLM)的推理能力。现有基于可验证奖励的强化学习(RLVR)方法通常采用结果驱动的优化方式,使用共享奖励来更新感知和推理模块,导致信用分配模糊,难以有效提升视觉证据提取的准确性。PRCO框架包含观察者和解决者两个协同角色,共享策略。观察者生成针对问题的证据描述,解决者基于该描述预测最终答案。PRCO采用角色特定的奖励信号:解决者使用最终答案的可验证结果奖励进行优化,而观察者则接收来自解决者下游成功的效用奖励。在八个具有挑战性的多模态推理基准测试中,PRCO在不同模型规模上均取得了显著提升,平均准确率比基线模型高出7个百分点以上,优于先前的开源RL调优基线。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习(RLVR)方法在多模态推理任务中,通常使用共享奖励信号同时优化感知和推理模块。这种方式的痛点在于,最终的奖励信号难以区分是感知模块的错误还是推理模块的错误导致的,从而导致信用分配模糊,难以有效提升上游视觉证据提取的准确性,形成感知瓶颈。

核心思路:PRCO的核心思路是将多模态推理过程解耦为感知和推理两个阶段,并分别赋予不同的角色(观察者和解决者),然后通过角色特定的奖励信号来分别优化这两个阶段。观察者负责提取与问题相关的视觉证据,解决者负责基于提取的证据进行推理并给出答案。通过这种方式,可以更精确地评估每个阶段的贡献,从而更好地优化整个系统。

技术框架:PRCO框架包含两个主要模块:观察者(Observer)和解决者(Solver)。观察者负责根据输入图像和问题生成一个证据描述(caption),解决者则基于该描述和问题预测最终答案。这两个模块共享一个策略网络,但使用不同的奖励信号进行训练。整体流程如下:1. 输入图像和问题;2. 观察者生成证据描述;3. 解决者基于证据描述和问题预测答案;4. 根据答案的正确性,计算解决者的奖励;5. 根据解决者的奖励,计算观察者的奖励;6. 使用角色特定的奖励信号更新共享策略网络。

关键创新:PRCO最重要的技术创新点在于引入了双重角色和角色特定的奖励信号。与传统的共享奖励方法不同,PRCO为观察者和解决者分别设计了不同的奖励函数。解决者使用最终答案的可验证结果奖励进行优化,而观察者则接收来自解决者下游成功的效用奖励。这种设计使得感知和推理模块可以分别针对自己的目标进行优化,从而避免了信用分配模糊的问题。

关键设计:PRCO的关键设计包括:1. 共享策略网络:观察者和解决者共享一个策略网络,可以有效利用彼此的信息,提高训练效率。2. 角色特定的奖励函数:解决者使用标准的答案正确性奖励,观察者使用解决者的奖励作为效用奖励,鼓励观察者生成更有助于解决者做出正确答案的证据描述。3. 损失函数:使用强化学习中的策略梯度算法来更新策略网络,目标是最大化期望奖励。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PRCO在八个具有挑战性的多模态推理基准测试中取得了显著提升,平均准确率比基线模型高出7个百分点以上。例如,在某个具体数据集上,PRCO的准确率从基线模型的X%提升到了Y%,显著优于先前的开源RL调优基线。实验结果表明,PRCO能够有效提升多模态推理的性能,并且具有良好的泛化能力。

🎯 应用场景

PRCO框架可以应用于各种需要多模态推理的场景,例如视觉问答、图像描述、机器人导航等。通过提升多模态推理的准确性和效率,可以改善人机交互体验,提高自动化系统的智能化水平,并为更复杂的AI应用奠定基础。未来,该方法有望扩展到更多模态和更复杂的推理任务中。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has substantially enhanced the reasoning capabilities of multimodal large language models (MLLMs). However, existing RLVR approaches typically rely on outcome-driven optimization that updates both perception and reasoning using a shared reward based solely on the final answer. This shared reward blurs credit assignment, frequently improving reasoning patterns while failing to reliably enhance the accuracy of upstream visual evidence extraction. To address this perception bottleneck, we introduce PRCO (Perception-Reasoning Coevolution), a dual-role RLVR framework with a shared policy. PRCO consists of two cooperative roles: an Observer that generates an evidence caption tailored to the question and a Solver that predicts the final answer based on this caption. Crucially, PRCO employs role-specific reward signals: the Solver is optimized using verifiable outcome rewards on the final answer, while the Observer receives a utility reward derived from the Solver's downstream success. Extensive experiments across eight challenging multimodal reasoning benchmarks demonstrate that PRCO yields consistent improvements across model scales by over 7 points on average accuracy compared to the base model, outperforming prior open-source RL-tuned baselines.