OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents
作者: Shuang Chen, Kaituo Feng, Hangting Chen, Wenxuan Huang, Dasen Dai, Quanxin Shou, Yunlong Lin, Xiangyu Yue, Shenghua Gao, Tianyu Pang
分类: cs.CV
发布日期: 2026-05-06
备注: Github Page: https://github.com/shawn0728/OpenSearch-VL
💡 一句话要点
OpenSearch-VL:开源多模态搜索Agent训练方案,提升复杂问题解决能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态搜索 Agent强化学习 开源方案 深度搜索 知识获取 主动感知 工具学习
📋 核心要点
- 现有顶尖多模态搜索Agent难以复现,主要原因是缺乏开放的高质量训练数据和透明的训练流程。
- OpenSearch-VL通过构建高质量训练数据和设计多样化工具环境,结合Agent强化学习,提升Agent的搜索能力。
- 实验表明,OpenSearch-VL在多个基准测试中取得了显著的性能提升,与商业模型结果相当。
📝 摘要(中文)
深度搜索已成为前沿多模态Agent的关键能力,使模型能够通过主动搜索、证据验证和多步骤推理来解决复杂问题。然而,由于缺乏高质量的开放训练数据、透明的轨迹合成流程或详细的训练方案,顶级多模态搜索Agent难以复现。为此,我们推出了OpenSearch-VL,这是一个完全开源的方案,用于训练具有Agent强化学习的前沿多模态深度搜索Agent。首先,我们构建了一个专门的流程,通过维基百科路径采样、模糊实体重写和源锚视觉 grounding 来构建高质量的训练数据,从而共同减少捷径和单步检索崩溃。基于此流程,我们构建了两个训练数据集,SearchVL-SFT-36k 用于 SFT,SearchVL-RL-8k 用于 RL。此外,我们设计了一个多样化的工具环境,统一了文本搜索、图像搜索、OCR、裁剪、锐化、超分辨率和透视校正,使Agent能够将主动感知与外部知识获取相结合。最后,我们提出了一种多轮致命感知 GRPO 训练算法,通过屏蔽失败后的token,同时通过单边优势钳制保留有用的失败前推理来处理级联工具故障。基于此方案,OpenSearch-VL 实现了显著的性能提升,在七个基准测试中平均提升超过 10 个百分点,并在多个任务上取得了与专有商业模型相当的结果。我们将发布所有数据、代码和模型,以支持多模态深度搜索Agent的开放研究。
🔬 方法详解
问题定义:论文旨在解决多模态搜索Agent训练中数据匮乏和训练流程不透明的问题。现有方法容易出现捷径学习和单步检索崩溃,导致Agent无法进行有效的多步推理和知识探索。
核心思路:论文的核心思路是构建一个完全开源的、可复现的多模态搜索Agent训练方案,包括高质量的训练数据生成流程、多样化的工具环境以及有效的强化学习训练算法。通过开放数据、代码和模型,促进多模态搜索Agent的开放研究。
技术框架:OpenSearch-VL的整体框架包含三个主要部分:数据构建流程、工具环境和训练算法。数据构建流程负责生成高质量的训练数据,包括维基百科路径采样、模糊实体重写和源锚视觉 grounding。工具环境提供了一系列工具,如文本搜索、图像搜索、OCR等,供Agent使用。训练算法采用多轮致命感知 GRPO 算法,处理工具失败的情况。
关键创新:论文的关键创新在于以下几个方面:1) 提出了一个高质量的训练数据生成流程,有效减少了捷径学习和单步检索崩溃;2) 设计了一个多样化的工具环境,使Agent能够进行主动感知和知识获取;3) 提出了多轮致命感知 GRPO 训练算法,能够有效处理工具失败的情况。
关键设计:在数据构建方面,采用了维基百科路径采样来生成多步推理的训练数据,并使用模糊实体重写来增加数据的多样性。在工具环境方面,统一了多种工具,并设计了相应的接口供Agent调用。在训练算法方面,采用了 GRPO 算法,并引入了致命感知机制,通过屏蔽失败后的token来避免负面影响,同时使用单边优势钳制来保留有用的失败前推理。
🖼️ 关键图片
📊 实验亮点
OpenSearch-VL在七个基准测试中取得了平均超过10个百分点的性能提升,并在多个任务上达到了与商业模型相当的结果。这表明该方案在多模态搜索Agent训练方面具有显著的优势,能够有效提升Agent的性能和泛化能力。
🎯 应用场景
OpenSearch-VL可应用于智能问答、视觉导航、机器人控制等领域。通过结合多模态信息和主动搜索能力,Agent可以更好地理解用户意图,解决复杂问题,并与环境进行交互。该研究有助于推动通用人工智能的发展,并为实际应用提供更强大的技术支持。
📄 摘要(原文)
Deep search has become a crucial capability for frontier multimodal agents, enabling models to solve complex questions through active search, evidence verification, and multi-step reasoning. Despite rapid progress, top-tier multimodal search agents remain difficult to reproduce, largely due to the absence of open high-quality training data, transparent trajectory synthesis pipelines, or detailed training recipes. To this end, we introduce OpenSearch-VL, a fully open-source recipe for training frontier multimodal deep search agents with agentic reinforcement learning. First, we curated a dedicated pipeline to construct high-quality training data through Wikipedia path sampling, fuzzy entity rewriting, and source-anchor visual grounding, which jointly reduce shortcuts and one-step retrieval collapse. Based on this pipeline, we curate two training datasets, SearchVL-SFT-36k for SFT and SearchVL-RL-8k for RL. Besides, we design a diverse tool environment that unifies text search, image search, OCR, cropping, sharpening, super-resolution, and perspective correction, enabling agents to combine active perception with external knowledge acquisition. Finally, we propose a multi-turn fatal-aware GRPO training algorithm that handles cascading tool failures by masking post-failure tokens while preserving useful pre-failure reasoning through one-sided advantage clamping. Built on this recipe, OpenSearch-VL delivers substantial performance gains, with over 10-point average improvements across seven benchmarks, and achieves results comparable to proprietary commercial models on several tasks. We will release all data, code, and models to support open research on multimodal deep search agents.