POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch
作者: Yikun Liu, Yuan Liu, Le Tian, Xiao Zhou, Jiangchao Yao, Yanfeng Wang, Weidi Xie
分类: cs.CV
发布日期: 2026-04-15
💡 一句话要点
提出POINTS-Seeker,从零训练多模态Agentic搜索模型,解决长程知识密集型视觉推理难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 Agentic搜索 视觉推理 长程交互 知识密集型任务
📋 核心要点
- 现有大型多模态模型受限于静态知识,无法有效进行知识密集型视觉推理。
- 论文提出Agentic Seeding和V-Fold压缩方案,从零训练多模态Agentic搜索模型。
- POINTS-Seeker-8B在六个基准测试中超越现有模型,有效解决长程视觉推理难题。
📝 摘要(中文)
大型多模态模型(LMMs)展现了卓越的视觉感知能力,但其静态参数知识限制了其认知能力。为了突破这些限制,多模态搜索模型被用于主动与外部环境交互以检索证据。与仅仅将通用LMMs改造为带有搜索工具的模块化扩展的现有范例不同,本文探索了从零开始构建多模态agentic搜索模型的潜力。具体来说,本文做出了以下贡献:(i)引入了Agentic Seeding,这是一个专门的阶段,旨在编织激发agentic行为所需的基础先决条件;(ii)揭示了长程交互中的性能瓶颈,即不断增加的交互历史会削弱模型定位真实证据的能力。为了缓解这个问题,本文提出了一种自适应的、历史感知的压缩方案V-Fold,该方案以高保真度保留最近的对话轮次,同时通过渲染将历史上下文折叠到视觉空间中;(iii)开发了POINTS-Seeker-8B,这是一个最先进的多模态agentic搜索模型,在六个不同的基准测试中始终优于现有模型,有效地解决了长程、知识密集型视觉推理的挑战。
🔬 方法详解
问题定义:现有的大型多模态模型虽然具备一定的视觉感知能力,但是其知识来源于预训练的静态参数,无法动态地获取外部信息,因此在需要大量外部知识进行推理的任务中表现不佳。此外,直接将大型模型与搜索工具结合的方法,并没有充分挖掘模型本身作为智能体进行交互的潜力。长程交互过程中,历史信息的积累会淹没关键证据,导致模型性能下降。
核心思路:本文的核心思路是从零开始训练一个多模态Agentic搜索模型,使其具备主动搜索和利用外部信息的能力。通过Agentic Seeding阶段,模型能够学习到作为智能体的基本行为模式。针对长程交互中的信息过载问题,提出了V-Fold压缩方案,将历史信息压缩到视觉空间中,减轻模型的负担。
技术框架:POINTS-Seeker的整体框架包含以下几个主要阶段:1) Agentic Seeding:通过专门设计的训练数据和目标函数,使模型学习到基本的agentic行为,例如提问、搜索、阅读等。2) 交互阶段:模型与外部环境进行多轮交互,通过搜索获取相关信息。3) V-Fold压缩:在交互过程中,使用V-Fold方案对历史信息进行压缩,保留关键信息,减少信息冗余。4) 推理阶段:模型利用获取的信息进行推理,完成最终任务。
关键创新:本文最重要的技术创新点在于从零开始训练多模态Agentic搜索模型,并提出了Agentic Seeding和V-Fold压缩方案。与现有方法相比,本文的方法更加注重模型本身作为智能体的能力,而不是简单地将模型作为工具使用。V-Fold方案能够有效地解决长程交互中的信息过载问题,提高模型的性能。
关键设计:Agentic Seeding阶段,设计了专门的训练数据,包括问题、搜索query、搜索结果、答案等。V-Fold压缩方案,将历史对话信息渲染成图像,并与当前输入图像拼接在一起,作为模型的输入。具体渲染方式和压缩比例需要根据实际情况进行调整。损失函数方面,使用了交叉熵损失函数和对比学习损失函数,以提高模型的推理能力和信息检索能力。
🖼️ 关键图片
📊 实验亮点
POINTS-Seeker-8B在六个不同的基准测试中始终优于现有模型,证明了其在长程、知识密集型视觉推理方面的优越性。具体性能数据在论文中给出,相较于之前的SOTA模型,在多个指标上均有显著提升,尤其是在需要多轮交互和复杂推理的任务中。
🎯 应用场景
该研究成果可应用于智能问答、视觉搜索、机器人导航等领域。例如,在智能客服中,模型可以主动搜索相关知识库,为用户提供更准确的答案。在机器人导航中,模型可以通过视觉搜索获取周围环境信息,规划最佳路径。未来,该技术有望应用于更广泛的知识密集型任务,提升人工智能系统的智能化水平。
📄 摘要(原文)
While Large Multimodal Models (LMMs) demonstrate impressive visual perception, they remain epistemically constrained by their static parametric knowledge. To transcend these boundaries, multimodal search models have been adopted to actively interact with the external environment for evidence retrieval. Diverging from prevailing paradigms that merely retrofit general LMMs with search tools as modular extensions, we explore the potential of building a multimodal agentic search model from scratch. Specifically, we make the following contributions: (i) we introduce Agentic Seeding, a dedicated phase designed to weave the foundational precursors necessary for eliciting agentic behaviors; (ii) we uncover a performance bottleneck in long-horizon interactions, where the increasing volume of interaction history overwhelms the model's ability to locate ground-truth evidence. To mitigate this, we propose V-Fold, an adaptive history-aware compression scheme that preserves recent dialogue turns in high fidelity while folding historical context into the visual space via rendering; and (iii) we develop POINTS-Seeker-8B, a state-of-the-art multimodal agentic search model that consistently outperforms existing models across six diverse benchmarks, effectively resolving the challenges of long-horizon, knowledge-intensive visual reasoning.