Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents
作者: Shijue Huang, Hangyu Guo, Chenxin Li, Junting Lu, Xinyu Geng, Zhaochen Su, Zhenyu Li, Shuang Chen, Hongru Wang, Yi R. Fung
分类: cs.CL
发布日期: 2026-05-11
💡 一句话要点
提出视觉原生智能体框架与策略内数据演化(ODE)方法,显著提升多模态深度搜索能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态智能体 视觉推理 策略内数据演化 工具调用 强化学习 监督微调 闭环学习
📋 核心要点
- 现有工具链将中间视觉输出视为瞬时数据,导致后续推理无法复用关键视觉证据,且静态训练数据无法匹配智能体能力的动态演进。
- 提出视觉原生智能体框架,通过图像库引用协议实现视觉证据的可寻址复用,并引入策略内数据演化(ODE)实现闭环数据生成与迭代。
- 实验表明,ODE显著提升了智能体在复杂搜索任务中的表现,Qwen3-VL-8B模型性能提升至39.0%,在多项指标上超越了Gemini-2.5 Pro。
📝 摘要(中文)
多模态深度搜索要求智能体通过链接搜索、工具使用和视觉推理来解决开放世界问题。当前系统存在两大瓶颈:一是现有工具链将搜索或转换产生的图像视为瞬时输出,导致中间视觉证据无法被后续工具复用;二是训练数据通常基于固定配方,无法随智能体能力的演进而动态调整。为解决这些问题,本文引入了以图像库引用协议为核心的视觉原生智能体框架,将工具返回的图像注册为可寻址引用,实现视觉证据的复用。在此基础上,提出了策略内数据演化(ODE)方法,通过闭环数据生成器,根据训练中策略的滚动输出(rollouts)进行逐轮迭代优化。该框架支持多样化的监督微调(SFT)和策略感知强化学习(RL)数据策划。在8个多模态深度搜索基准测试中,ODE将Qwen3-VL-8B的平均性能从24.9%提升至39.0%,超越了Gemini-2.5 Pro(37.9%),在30B模型上亦有显著增益。
🔬 方法详解
问题定义:多模态深度搜索任务中,智能体在处理长链路任务时,工具产生的中间视觉信息(如搜索截图、裁剪图)往往被丢弃,导致后续步骤无法利用这些证据。同时,静态数据集无法针对智能体在训练过程中暴露的薄弱环节进行针对性补强。
核心思路:引入“视觉原生”设计理念,将图像视为一等公民,通过统一的图像库引用协议(Image Bank Reference Protocol)实现跨步骤的视觉证据持久化与复用。同时,利用策略内数据演化(ODE)机制,让数据生成器根据当前策略的实时表现动态调整训练样本,实现“以练促学”的闭环优化。
技术框架:整体架构包含两个核心模块:一是视觉原生智能体框架,负责工具调用与图像引用管理;二是ODE闭环生成器,通过对当前策略进行Rollout采样,识别模型在复杂任务中的失败模式,并据此生成针对性的SFT与RL训练数据。
关键创新:最重要的创新在于将数据策划从“静态配方”转变为“策略感知”的动态演化过程。通过图像库引用协议,打破了工具输出的瞬时性限制,使智能体具备了真正的多步视觉推理能力。
关键设计:系统支持对工具返回的图像进行唯一标识注册,确保智能体在后续推理中可通过引用ID直接调用历史视觉证据。在数据演化阶段,通过分析策略的Rollout轨迹,自动生成能够覆盖当前模型能力边界的训练任务,从而在训练全生命周期内保持数据的高效性与针对性。
🖼️ 关键图片
📊 实验亮点
ODE方法在8个多模态深度搜索基准上表现卓越。Qwen3-VL-8B模型性能从24.9%提升至39.0%,成功超越Gemini-2.5 Pro(37.9%)。在30B参数规模下,平均得分从30.6%提升至41.5%。分析表明,图像库复用机制显著增强了复杂任务的视觉推理能力,而基于Rollout反馈的演化数据有效提升了SFT轨迹的接地性(grounding)与RL任务的策略匹配度。
🎯 应用场景
该研究适用于需要复杂多步推理的开放域搜索场景,如自动化市场调研、深度学术文献挖掘、复杂多模态信息合成等。其核心价值在于提升智能体在长链路任务中的视觉证据利用率,为构建更具鲁棒性和自主性的多模态智能体提供了通用范式,未来可广泛应用于企业级知识库问答与自动化决策系统。
📄 摘要(原文)
Multimodal deep search requires an agent to solve open-world problems by chaining search, tool use, and visual reasoning over evolving textual and visual context. Two bottlenecks limit current systems. First, existing tool-use harnesses treat images returned by search, browsing, or transformation as transient outputs, so intermediate visual evidence cannot be re-consumed by later tools. Second, training data is usually built by fixed curation recipes that cannot track the target agent's evolving capability. To address these challenges, we first introduce a visual-native agent harness centered on an image bank reference protocol, which registers every tool-returned image as an addressable reference and makes intermediate visual evidence reusable by later tools. On top of this harness, On-policy Data Evolution (ODE) runs a closed-loop data generator that refines itself across rounds from rollouts of the policy being trained. This per-round refinement makes each round's data target what the current policy still needs to learn. The same framework supports both diverse supervised fine-tuning data and policy-aware reinforcement learning data curation, covering the full training lifecycle of the target agent. Across 8 multimodal deep search benchmarks, ODE improves the Qwen3-VL-8B agent from 24.9% to 39.0% on average, surpassing Gemini-2.5 Pro in standard agent-workflow setting (37.9%). At 30B, ODE raises the average score from 30.6% to 41.5%. Further analyses validate the effectiveness of image-bank reuse, especially on complex tasks requiring iterative visual refinement, while rollout-feedback evolution yields more grounded SFT traces and better policy-matched RL tasks than static synthesis.