GeoBrowse: A Geolocation Benchmark for Agentic Tool Use with Expert-Annotated Reasoning Traces

📄 arXiv: 2604.04017 📥 PDF

作者: Xinyu Geng, Yanjing Xiao, Yuyang Zhang, Hanwen Wang, Xinyan Liu, Rui Min, Tianqing Fang, Yi R. Fung

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出GeoBrowse地理定位基准,用于评估Agentic工具使用中的多模态推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地理定位 智能体工具使用 多模态推理 知识密集型查询 视觉推理

📋 核心要点

  1. 现有智能体工具使用基准在多模态推理方面存在不足,尤其缺乏对弱视觉线索组合和多跳验证能力的要求。
  2. GeoBrowse通过地理定位任务,结合视觉推理和知识密集型查询,提供了一个更具挑战性的测试环境。
  3. 实验表明,GATE工作流优于现有方法,证明了连贯的工具使用计划在复杂推理任务中的重要性。

📝 摘要(中文)

本文提出了GeoBrowse,一个地理定位基准,用于评估智能体在工具使用方面的能力,特别是涉及视觉推理和知识密集型多跳查询。地理定位是一个理想的测试场景,因为它依赖于组合多个模糊的视觉线索,并使用开放网络证据进行验证。GeoBrowse包含两个难度级别:Level 1测试提取和组合碎片化的视觉线索,Level 2通过注入长尾知识和混淆关键实体来增加查询难度。为了支持评估,我们提供了一个名为GATE的Agentic工作流,包含五个图像处理工具和四个知识密集型工具,并发布了专家标注的逐步推理轨迹,这些轨迹基于可验证的证据,用于轨迹级别的分析。实验表明,GATE优于直接推理和开源智能体,表明无工具、仅搜索或仅图像的设置是不够的。性能提升来自于连贯的、特定于级别的工具使用计划,而不是更多的工具调用,因为它们更可靠地到达标注的关键证据步骤,并在整合到最终决策时减少错误。

🔬 方法详解

问题定义:现有智能体工具使用基准,如BrowseComp,主要集中在文本信息处理上,而现有的多模态基准很少需要智能体同时具备弱视觉线索组合和BrowseComp风格的多跳验证能力。地理定位任务需要结合视觉信息和外部知识,对智能体的推理能力提出了更高的要求。

核心思路:GeoBrowse的核心思路是构建一个需要智能体利用多种工具,结合视觉信息和外部知识才能解决的地理定位任务。通过设计不同难度的级别,考察智能体在提取、组合视觉线索以及进行知识推理方面的能力。

技术框架:GeoBrowse基准包含两个难度级别。Level 1侧重于提取和组合碎片化的视觉线索。Level 2通过引入长尾知识和混淆关键实体来增加难度。同时,论文提供了一个名为GATE的Agentic工作流,包含五个图像处理工具(用于处理视觉信息)和四个知识密集型工具(用于检索和验证信息)。GATE可以作为智能体解决GeoBrowse任务的一个示例。

关键创新:GeoBrowse的关键创新在于它将视觉推理和知识密集型多跳查询结合在一个地理定位任务中,更全面地评估了智能体的工具使用能力。此外,论文还提供了专家标注的推理轨迹,方便研究人员进行轨迹级别的分析。

关键设计:GATE工作流的设计重点在于如何有效地利用不同的工具来解决地理定位问题。具体的技术细节包括如何选择合适的图像处理工具来提取视觉线索,如何利用知识密集型工具来检索和验证信息,以及如何将这些信息整合起来做出最终的决策。论文中并没有详细描述具体的参数设置、损失函数或网络结构,这些可能取决于具体的工具选择和智能体实现。

📊 实验亮点

实验结果表明,GATE工作流在GeoBrowse基准上优于直接推理和开源智能体。GATE的性能提升主要来自于连贯的、特定于级别的工具使用计划,而不是更多的工具调用。GATE能够更可靠地到达标注的关键证据步骤,并在整合到最终决策时减少错误。具体性能提升数据未知。

🎯 应用场景

GeoBrowse基准可以应用于开发更智能、更可靠的智能体,这些智能体能够利用多种工具和信息源来解决复杂的现实世界问题,例如自动驾驶、智能城市管理、灾害救援等。该基准也有助于提升多模态信息融合和知识推理技术。

📄 摘要(原文)

Deep research agents integrate fragmented evidence through multi-step tool use. BrowseComp offers a text-only testbed for such agents, but existing multimodal benchmarks rarely require both weak visual cues composition and BrowseComp-style multi-hop verification. Geolocation is a natural testbed because answers depend on combining multiple ambiguous visual cues and validating them with open-web evidence. Thus, we introduce GeoBrowse, a geolocation benchmark that combines visual reasoning with knowledge-intensive multi-hop queries. Level 1 tests extracting and composing fragmented visual cues, and Level 2 increases query difficulty by injecting long-tail knowledge and obfuscating key entities. To support evaluation, we provide an agentic workflow GATE with five think-with-image tools and four knowledge-intensive tools, and release expert-annotated stepwise traces grounded in verifiable evidence for trajectory-level analysis. Experiments show that GATE outperforms direct inference and open-source agents, indicating that no-tool, search-only or image-only setups are insufficient. Gains come from coherent, level-specific tool-use plans rather than more tool calls, as they more reliably reach annotated key evidence steps and make fewer errors when integrating into the final decision. The GeoBrowse bernchmark and codes are provided inthis https URL