Perception-Aware Policy Optimization for Multimodal Reasoning

作者: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji

分类: cs.CL

发布日期: 2025-07-08 (更新: 2025-08-07)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出PAPO算法，通过感知驱动的策略优化提升多模态推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 强化学习 策略优化 视觉感知 KL散度

📋 核心要点

现有基于RLVR的方法在多模态推理中表现欠佳，主要原因是视觉感知能力不足，导致推理错误。
PAPO算法通过引入隐式感知损失和双重熵损失，在策略优化过程中同时提升模型的感知和推理能力。
实验表明，PAPO在多个多模态任务上显著提升了性能，尤其是在视觉依赖性高的任务中，并有效降低了感知错误。

📝 摘要（中文）

本文提出了一种用于多模态推理的感知驱动策略优化算法PAPO，旨在解决现有基于可验证奖励的强化学习（RLVR）方法在多模态任务中因视觉感知不足而导致的性能瓶颈。PAPO通过引入隐式感知损失（Implicit Perception Loss），以KL散度的形式无缝集成到主流RLVR算法（如GRPO和DAPO）中，鼓励模型在学习推理的同时学习感知。此外，为了增强训练稳定性，PAPO引入了双重熵损失（Double Entropy Loss）来正则化KL目标。实验结果表明，PAPO在多个多模态基准测试中取得了4.4%-17.5%的显著提升，在视觉依赖性高的任务中提升幅度接近8.0%-19.1%，感知错误减少了30.5%。该研究为视觉基础推理提供了一种新的RL框架。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在多模态推理任务中，由于对视觉输入感知不足而导致的性能瓶颈问题。现有的基于可验证奖励的强化学习（RLVR）方法主要针对纯文本领域设计，无法有效处理多模态数据中的视觉信息，导致推理过程中的错误。

核心思路：论文的核心思路是在策略优化过程中，同时提升模型的感知和推理能力。通过引入隐式感知损失，鼓励模型学习如何更好地理解视觉输入，从而提高推理的准确性。此外，通过引入双重熵损失，增强训练的稳定性，避免模型陷入局部最优。

技术框架：PAPO算法可以无缝集成到现有的RLVR框架中，例如GRPO和DAPO。其主要流程包括：1) 使用LLM生成动作序列；2) 根据环境反馈计算奖励；3) 计算隐式感知损失和双重熵损失；4) 使用策略梯度算法更新模型参数。隐式感知损失通过KL散度来衡量模型对视觉输入的感知程度，双重熵损失用于正则化KL目标，防止训练不稳定。

关键创新：PAPO的关键创新在于将感知能力融入到策略优化过程中，通过隐式感知损失来指导模型学习如何更好地理解视觉信息。与现有方法相比，PAPO不需要额外的数据标注、奖励模型或更强的教师模型，而是直接在学习目标中引入感知相关的监督信号。这使得模型能够在学习推理的同时，提升感知能力，从而提高整体性能。

关键设计：隐式感知损失采用KL散度的形式，衡量模型生成的动作分布与理想动作分布之间的差异。理想动作分布可以通过预训练的视觉模型或人工标注获得。双重熵损失用于正则化KL目标，防止模型过度拟合。具体的参数设置包括KL散度的权重、熵损失的权重等，需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PAPO在多个多模态基准测试中取得了显著的性能提升。例如，在视觉依赖性高的任务中，PAPO的性能提升接近8.0%-19.1%。此外，PAPO还显著降低了感知错误，降低幅度达到30.5%。这些结果表明，PAPO能够有效提升模型的感知和推理能力，从而提高整体性能。

🎯 应用场景

PAPO算法可应用于各种需要多模态推理的场景，例如视觉问答、图像描述生成、机器人导航等。该研究有助于提升AI系统在复杂环境中的感知和决策能力，具有广泛的应用前景和实际价值。未来，可以进一步探索如何将PAPO算法与其他多模态学习方法相结合，以实现更强大的多模态推理能力。

📄 摘要（原文）

Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a highly effective strategy for endowing Large Language Models (LLMs) with robust multi-step reasoning abilities. However, its design and optimizations remain tailored to purely textual domains, resulting in suboptimal performance when applied to multimodal reasoning tasks. In particular, we observe that a major source of error in current multimodal reasoning lies in the perception of visual inputs. To address this bottleneck, we propose PAPO, a novel policy gradient algorithm that encourages the model to learn to perceive while learning to reason. Specifically, we introduce the Implicit Perception Loss in the form of a KL divergence term, which can be seamlessly plugged into mainstream RLVR algorithms such as GRPO and DAPO. Notably, PAPO does not rely on additional data curation, reward models, or stronger teacher models. To further enhance the training stability of PAPO, we introduce the Double Entropy Loss, which effectively regularizes the new KL objective without compromising performance. Despite its simplicity, PAPO yields significant overall improvements of 4.4%-17.5% on diverse multimodal benchmarks. The improvements are more pronounced, approaching 8.0%-19.1%, on tasks with high vision dependency. We also observe a substantial reduction of 30.5% in perception errors, indicating improved perceptual capabilities with PAPO. Overall, our work introduces a deeper integration of perception-aware supervision into core learning objectives and lays the groundwork for a new RL framework that encourages visually grounded reasoning. Code and data will be made publicly available for research purposes. Project page: https://mikewangwzhl.github.io/PAPO.

Perception-Aware Policy Optimization for Multimodal Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理