PyVision-RL: Forging Open Agentic Vision Models via RL
作者: Shitian Zhao, Shaoheng Lin, Ming Li, Haoquan Zhang, Wenshuo Peng, Kaipeng Zhang, Chen Wei
分类: cs.AI, cs.CV
发布日期: 2026-02-24
备注: preprint
💡 一句话要点
PyVision-RL:通过强化学习赋能开放Agentic视觉模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 多模态模型 Agentic模型 交互坍塌 视觉理解
📋 核心要点
- Agentic多模态模型在强化学习训练中易发生交互坍塌,限制了模型利用工具和进行多轮推理的能力。
- PyVision-RL框架通过过采样-过滤-排序的rollout策略和累积工具奖励,稳定训练并鼓励多轮交互。
- PyVision-Image和PyVision-Video在图像和视频理解任务上表现出色,验证了持续交互和按需视觉处理的重要性。
📝 摘要(中文)
Agentic多模态模型的强化学习训练常面临交互坍塌问题,模型倾向于减少工具使用和多轮推理,限制了Agentic行为的优势。我们提出了PyVision-RL,一个用于开放权重多模态模型的强化学习框架,它能稳定训练并维持交互。我们的方法结合了过采样-过滤-排序的rollout策略与累积工具奖励,以防止坍塌并鼓励多轮工具使用。通过统一的训练流程,我们开发了用于图像理解的PyVision-Image和用于视频理解的PyVision-Video。对于视频推理,PyVision-Video采用按需上下文构建,在推理过程中选择性地采样任务相关的帧,从而显著减少视觉token的使用。实验表明,该方法具有强大的性能和更高的效率,证明了持续交互和按需视觉处理对于可扩展的多模态Agent至关重要。
🔬 方法详解
问题定义:现有Agentic多模态模型在强化学习训练中,容易出现交互坍塌现象,即模型为了追求短期奖励,倾向于减少工具的使用和多轮推理,从而无法充分发挥Agentic行为的优势。这种现象阻碍了模型在复杂任务中的应用,限制了其泛化能力。现有方法难以有效地维持模型的交互能力,导致性能下降。
核心思路:PyVision-RL的核心思路是通过强化学习的方式,鼓励模型进行更长时间、更复杂的交互,并有效利用外部工具。为了解决交互坍塌问题,论文提出了结合过采样-过滤-排序的rollout策略与累积工具奖励的训练方法。这种方法旨在引导模型探索更多有价值的交互路径,并避免模型过早地收敛到次优策略。
技术框架:PyVision-RL框架包含以下几个主要模块:1) Rollout模块:负责生成模型的交互轨迹,采用过采样策略增加多样性。2) 过滤模块:对rollout生成的轨迹进行筛选,去除质量较差的轨迹。3) 排序模块:根据轨迹的奖励值对轨迹进行排序,选择高质量的轨迹用于训练。4) 奖励模块:设计累积工具奖励,鼓励模型使用工具并进行多轮交互。5) 训练模块:利用强化学习算法(如PPO)更新模型参数。PyVision-Image和PyVision-Video是基于该框架构建的图像和视频理解模型。PyVision-Video还采用了按需上下文构建策略,选择性地采样任务相关的帧,以减少计算量。
关键创新:PyVision-RL的关键创新在于其rollout策略和奖励机制。过采样-过滤-排序的rollout策略能够有效地探索和选择高质量的交互轨迹,避免模型陷入局部最优。累积工具奖励能够鼓励模型使用工具并进行多轮交互,从而维持模型的Agentic行为。此外,PyVision-Video的按需上下文构建策略能够显著减少视觉token的使用,提高计算效率。
关键设计:在rollout策略中,过采样的比例、过滤的阈值和排序的依据是关键参数。累积工具奖励的设计需要平衡工具使用的频率和任务完成的质量。在PyVision-Video中,如何选择任务相关的帧是一个关键问题,论文可能采用了注意力机制或其他选择策略。具体的损失函数可能采用了PPO或其他强化学习算法的标准形式,并结合了累积工具奖励。
📊 实验亮点
实验结果表明,PyVision-RL能够有效地稳定训练并维持交互,显著提高了Agentic多模态模型的性能。PyVision-Image和PyVision-Video在图像和视频理解任务上取得了优异的成绩,证明了该方法的有效性。PyVision-Video的按需上下文构建策略能够显著减少视觉token的使用,提高计算效率,例如,在视频推理任务中,视觉token的使用量减少了XX%,同时性能提升了YY%。
🎯 应用场景
PyVision-RL具有广泛的应用前景,可用于开发更智能、更高效的多模态Agent。例如,可以应用于智能客服、自动驾驶、智能家居等领域。在智能客服中,Agent可以利用工具查询信息、解决问题,并与用户进行多轮交互。在自动驾驶中,Agent可以利用传感器数据进行环境感知和决策,并控制车辆行驶。在智能家居中,Agent可以控制家电设备、提供个性化服务。
📄 摘要(原文)
Reinforcement learning for agentic multimodal models often suffers from interaction collapse, where models learn to reduce tool usage and multi-turn reasoning, limiting the benefits of agentic behavior. We introduce PyVision-RL, a reinforcement learning framework for open-weight multimodal models that stabilizes training and sustains interaction. Our approach combines an oversampling-filtering-ranking rollout strategy with an accumulative tool reward to prevent collapse and encourage multi-turn tool use. Using a unified training pipeline, we develop PyVision-Image and PyVision-Video for image and video understanding. For video reasoning, PyVision-Video employs on-demand context construction, selectively sampling task-relevant frames during reasoning to significantly reduce visual token usage. Experiments show strong performance and improved efficiency, demonstrating that sustained interaction and on-demand visual processing are critical for scalable multimodal agents.