PyVision-RL: Forging Open Agentic Vision Models via RL

作者: Shitian Zhao, Shaoheng Lin, Ming Li, Haoquan Zhang, Wenshuo Peng, Kaipeng Zhang, Chen Wei

分类: cs.AI, cs.CV

发布日期: 2026-02-24

备注: preprint

💡 一句话要点

PyVision-RL：通过强化学习赋能开放Agentic视觉模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 多模态模型 Agentic模型 交互坍塌 视觉理解

📋 核心要点

Agentic多模态模型在强化学习训练中易发生交互坍塌，限制了模型利用工具和进行多轮推理的能力。
PyVision-RL框架通过过采样-过滤-排序的rollout策略和累积工具奖励，稳定训练并鼓励多轮交互。
PyVision-Image和PyVision-Video在图像和视频理解任务上表现出色，验证了持续交互和按需视觉处理的重要性。

📝 摘要（中文）

Agentic多模态模型的强化学习训练常面临交互坍塌问题，模型倾向于减少工具使用和多轮推理，限制了Agentic行为的优势。我们提出了PyVision-RL，一个用于开放权重多模态模型的强化学习框架，它能稳定训练并维持交互。我们的方法结合了过采样-过滤-排序的rollout策略与累积工具奖励，以防止坍塌并鼓励多轮工具使用。通过统一的训练流程，我们开发了用于图像理解的PyVision-Image和用于视频理解的PyVision-Video。对于视频推理，PyVision-Video采用按需上下文构建，在推理过程中选择性地采样任务相关的帧，从而显著减少视觉token的使用。实验表明，该方法具有强大的性能和更高的效率，证明了持续交互和按需视觉处理对于可扩展的多模态Agent至关重要。

🔬 方法详解

问题定义：现有Agentic多模态模型在强化学习训练中，容易出现交互坍塌现象，即模型为了追求短期奖励，倾向于减少工具的使用和多轮推理，从而无法充分发挥Agentic行为的优势。这种现象阻碍了模型在复杂任务中的应用，限制了其泛化能力。现有方法难以有效地维持模型的交互能力，导致性能下降。

核心思路：PyVision-RL的核心思路是通过强化学习的方式，鼓励模型进行更长时间、更复杂的交互，并有效利用外部工具。为了解决交互坍塌问题，论文提出了结合过采样-过滤-排序的rollout策略与累积工具奖励的训练方法。这种方法旨在引导模型探索更多有价值的交互路径，并避免模型过早地收敛到次优策略。

技术框架：PyVision-RL框架包含以下几个主要模块：1) Rollout模块：负责生成模型的交互轨迹，采用过采样策略增加多样性。2) 过滤模块：对rollout生成的轨迹进行筛选，去除质量较差的轨迹。3) 排序模块：根据轨迹的奖励值对轨迹进行排序，选择高质量的轨迹用于训练。4) 奖励模块：设计累积工具奖励，鼓励模型使用工具并进行多轮交互。5) 训练模块：利用强化学习算法（如PPO）更新模型参数。PyVision-Image和PyVision-Video是基于该框架构建的图像和视频理解模型。PyVision-Video还采用了按需上下文构建策略，选择性地采样任务相关的帧，以减少计算量。

关键创新：PyVision-RL的关键创新在于其rollout策略和奖励机制。过采样-过滤-排序的rollout策略能够有效地探索和选择高质量的交互轨迹，避免模型陷入局部最优。累积工具奖励能够鼓励模型使用工具并进行多轮交互，从而维持模型的Agentic行为。此外，PyVision-Video的按需上下文构建策略能够显著减少视觉token的使用，提高计算效率。

关键设计：在rollout策略中，过采样的比例、过滤的阈值和排序的依据是关键参数。累积工具奖励的设计需要平衡工具使用的频率和任务完成的质量。在PyVision-Video中，如何选择任务相关的帧是一个关键问题，论文可能采用了注意力机制或其他选择策略。具体的损失函数可能采用了PPO或其他强化学习算法的标准形式，并结合了累积工具奖励。

📊 实验亮点

实验结果表明，PyVision-RL能够有效地稳定训练并维持交互，显著提高了Agentic多模态模型的性能。PyVision-Image和PyVision-Video在图像和视频理解任务上取得了优异的成绩，证明了该方法的有效性。PyVision-Video的按需上下文构建策略能够显著减少视觉token的使用，提高计算效率，例如，在视频推理任务中，视觉token的使用量减少了XX%，同时性能提升了YY%。

🎯 应用场景

PyVision-RL具有广泛的应用前景，可用于开发更智能、更高效的多模态Agent。例如，可以应用于智能客服、自动驾驶、智能家居等领域。在智能客服中，Agent可以利用工具查询信息、解决问题，并与用户进行多轮交互。在自动驾驶中，Agent可以利用传感器数据进行环境感知和决策，并控制车辆行驶。在智能家居中，Agent可以控制家电设备、提供个性化服务。

📄 摘要（原文）

Reinforcement learning for agentic multimodal models often suffers from interaction collapse, where models learn to reduce tool usage and multi-turn reasoning, limiting the benefits of agentic behavior. We introduce PyVision-RL, a reinforcement learning framework for open-weight multimodal models that stabilizes training and sustains interaction. Our approach combines an oversampling-filtering-ranking rollout strategy with an accumulative tool reward to prevent collapse and encourage multi-turn tool use. Using a unified training pipeline, we develop PyVision-Image and PyVision-Video for image and video understanding. For video reasoning, PyVision-Video employs on-demand context construction, selectively sampling task-relevant frames during reasoning to significantly reduce visual token usage. Experiments show strong performance and improved efficiency, demonstrating that sustained interaction and on-demand visual processing are critical for scalable multimodal agents.

PyVision-RL: Forging Open Agentic Vision Models via RL

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理