BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
作者: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
分类: cs.CL
发布日期: 2025-04-27 (更新: 2025-05-01)
备注: Under Review
🔗 代码/项目: GITHUB
💡 一句话要点
BrowseComp-ZH:构建中文Web浏览能力评测基准,揭示LLM在中文信息检索与推理的不足。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 中文Web浏览 大型语言模型 基准测试 信息检索 多跳推理 知识整合 智能体 BrowseComp-ZH
📋 核心要点
- 现有Web浏览能力评测基准主要集中于英文,忽略了中文Web的特殊性,如语言差异、基础设施和审查机制。
- BrowseComp-ZH通过逆向工程构建多跳问题,涵盖多个领域,旨在全面评估LLM在中文Web上的推理和检索能力。
- 实验结果表明,现有LLM在BrowseComp-ZH上表现不佳,即使是最佳模型也仅达到42.9%的准确率,表明中文Web浏览任务的挑战性。
📝 摘要(中文)
随着大型语言模型(LLMs)发展为工具型智能体,实时Web浏览能力已成为衡量其推理和检索能力的关键标准。现有的基准测试,如BrowseComp,侧重于英语,忽略了其他主要信息生态系统(尤其是中文)的语言、基础设施和审查相关的复杂性。为了弥补这一差距,我们推出了BrowseComp-ZH,这是一个高难度的基准测试,专门用于全面评估LLM智能体在中文Web上的表现。BrowseComp-ZH包含289个多跳问题,涵盖11个不同的领域。每个问题都是从一个简短、客观且易于验证的答案(例如,日期、数字或专有名词)逆向设计的。我们应用了一个两阶段的质量控制协议,力求实现高问题难度和答案唯一性。我们在我们提出的BrowseComp-ZH上对20多个最先进的语言模型和智能搜索系统进行了基准测试。尽管它们具有强大的对话和检索能力,但大多数模型都表现不佳:大量模型的准确率低于10%,只有少数模型超过20%。即使是性能最佳的系统OpenAI的DeepResearch,也仅达到42.9%。这些结果表明了BrowseComp-ZH的相当大的难度,成功不仅需要有效的检索策略,还需要复杂的推理和信息协调——这些能力是当前模型仍在努力掌握的。我们的数据集、构建指南和基准测试结果已在https://github.com/PALIN2018/BrowseComp-ZH上公开发布。
🔬 方法详解
问题定义:现有Web浏览能力评测基准主要针对英文,无法有效评估LLM在中文Web环境下的表现。中文Web在语言、基础设施和内容审查等方面存在显著差异,导致现有方法难以直接应用。现有方法的痛点在于无法模拟中文Web的复杂性和挑战性,从而无法准确评估LLM的真实能力。
核心思路:BrowseComp-ZH的核心思路是构建一个高难度的中文Web浏览能力评测基准,该基准能够全面评估LLM在中文Web环境下的推理、检索和信息整合能力。通过逆向工程的方式,从简短、客观且易于验证的答案出发,构建多跳问题,从而确保问题的难度和答案的唯一性。
技术框架:BrowseComp-ZH的构建包含以下主要阶段:1) 问题设计:从多个领域选择主题,并根据目标答案逆向设计多跳问题。2) 数据收集:利用搜索引擎和Web抓取技术,收集与问题相关的Web页面。3) 质量控制:采用两阶段质量控制协议,确保问题的难度和答案的唯一性。4) 基准测试:在BrowseComp-ZH上对多个LLM和智能搜索系统进行基准测试,评估其性能。
关键创新:BrowseComp-ZH最重要的技术创新点在于其针对中文Web环境的特殊设计。它考虑了中文的语言特点、中文Web的基础设施和内容审查机制,从而构建了一个更具挑战性和代表性的评测基准。与现有英文基准相比,BrowseComp-ZH更能反映LLM在中文Web环境下的真实能力。
关键设计:BrowseComp-ZH的关键设计包括:1) 多跳问题:每个问题需要多个步骤的推理和检索才能找到答案。2) 逆向工程:从答案出发构建问题,确保答案的客观性和唯一性。3) 两阶段质量控制:人工审核和模型验证,确保问题的难度和质量。4) 多领域覆盖:涵盖11个不同的领域,评估LLM的泛化能力。
🖼️ 关键图片
📊 实验亮点
在BrowseComp-ZH上,超过20个最先进的LLM和智能搜索系统进行了基准测试。实验结果表明,大多数模型的准确率低于10%,只有少数模型超过20%。性能最佳的系统OpenAI的DeepResearch,也仅达到42.9%的准确率。这些结果表明,现有LLM在中文Web浏览任务中仍面临巨大挑战,需要进一步改进其推理和信息整合能力。
🎯 应用场景
BrowseComp-ZH可用于评估和改进LLM在中文Web环境下的信息检索、推理和知识整合能力。该基准测试可以推动LLM在中文搜索引擎、智能助手、知识图谱构建等领域的应用,并促进中文自然语言处理技术的发展。未来,可以基于BrowseComp-ZH构建更复杂的任务,例如中文Web问答、中文Web摘要等。
📄 摘要(原文)
As large language models (LLMs) evolve into tool-using agents, the ability to browse the web in real-time has become a critical yardstick for measuring their reasoning and retrieval competence. Existing benchmarks such as BrowseComp concentrate on English and overlook the linguistic, infrastructural, and censorship-related complexities of other major information ecosystems -- most notably Chinese. To address this gap, we introduce BrowseComp-ZH, a high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning 11 diverse domains. Each question is reverse-engineered from a short, objective, and easily verifiable answer (e.g., a date, number, or proper noun). A two-stage quality control protocol is applied to strive for high question difficulty and answer uniqueness. We benchmark over 20 state-of-the-art language models and agentic search systems on our proposed BrowseComp-ZH. Despite their strong conversational and retrieval capabilities, most models struggle severely: a large number achieve accuracy rates below 10%, and only a handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch, reaches just 42.9%. These results demonstrate the considerable difficulty of BrowseComp-ZH, where success demands not only effective retrieval strategies, but also sophisticated reasoning and information reconciliation -- capabilities that current models still struggle to master. Our dataset, construction guidelines, and benchmark results have been publicly released at https://github.com/PALIN2018/BrowseComp-ZH.