K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts
作者: Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim
分类: cs.CL
发布日期: 2026-06-01
💡 一句话要点
提出K-BrowseComp:一个基于韩语环境的Web浏览Agent基准测试,用于评估和诊断LLM的Agent能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web浏览Agent 基准测试 韩语环境 LLM评估 Agent能力 合成数据生成 对抗过滤
📋 核心要点
- 现有Agent基准测试在韩语环境下稀缺,无法充分评估LLM在韩语Web浏览任务中的能力。
- K-BrowseComp通过人工构建和合成生成相结合的方式,构建了包含验证集和诊断集的基准测试。
- 实验表明,即使是强大的LLM在K-BrowseComp上也表现不佳,突显了在韩语Web浏览Agent能力上的差距。
📝 摘要(中文)
现有的模型评估正从基础能力(如指令遵循和推理)转向组合式、Agent能力,但韩国Agent基准测试仍然稀缺。我们引入K-BrowseComp,一个基于韩语环境的Web浏览Agent基准测试,包含400个问题。其中,包含300个问题的K-BrowseComp-Verified子集由母语为韩语的人工构建和验证。在这个子集上,包括GPT-5.5、DeepSeek-V4-Pro和GLM-5.1在内的前沿LLM仅达到30.00--45.67%的准确率,与BrowseComp相比大幅下降,而通过韩国专有AI基础模型计划发布的韩国LLM仅获得0.00--10.33%的准确率。我们进一步构建了一个包含100个问题的合成分割,使用困难的少样本示例和针对失败模式的生成,以利用解决和创建Web浏览问题之间的不对称性。在经过对抗过滤的合成诊断分割上,最强的模型仅达到26.00%的准确率,我们单独报告此分割作为有针对性的压力测试。我们公开发布我们的数据和代码。
🔬 方法详解
问题定义:现有Web浏览Agent基准测试主要集中在英语环境,缺乏针对韩语环境的测试。这导致现有LLM在处理韩语Web浏览任务时,由于语言和文化差异,表现不佳。K-BrowseComp旨在填补这一空白,提供一个专门用于评估和诊断LLM在韩语Web浏览任务中Agent能力的基准测试。现有方法的痛点在于无法准确反映LLM在韩语环境下的真实性能。
核心思路:K-BrowseComp的核心思路是构建一个既包含人工验证数据,又包含合成生成数据的基准测试。人工验证数据保证了基准测试的质量和可靠性,而合成生成数据则可以针对特定失败模式进行诊断,从而更全面地评估LLM的Agent能力。通过这种方式,K-BrowseComp可以更准确地反映LLM在韩语Web浏览任务中的真实性能,并为未来的研究提供有价值的参考。
技术框架:K-BrowseComp包含两个主要部分:K-BrowseComp-Verified和合成诊断分割。K-BrowseComp-Verified包含300个由母语为韩语的人工构建和验证的问题,用于评估LLM的基本Agent能力。合成诊断分割包含100个问题,使用困难的少样本示例和针对失败模式的生成,用于诊断LLM的特定弱点。整个流程包括数据收集、人工验证、合成生成、对抗过滤和性能评估等步骤。
关键创新:K-BrowseComp的关键创新在于其针对韩语环境的定制化设计和混合数据构建方法。与现有的Web浏览Agent基准测试相比,K-BrowseComp更关注韩语的语言和文化特点,并采用了人工验证和合成生成相结合的方式,从而更全面地评估LLM的Agent能力。此外,对抗过滤的合成诊断分割能够针对性地测试模型的弱点,这在其他基准测试中并不常见。
关键设计:在合成数据生成方面,论文使用了hard few-shot exemplars,即选择难度较高的示例来引导生成过程,以提高合成数据的质量。此外,论文还针对LLM在Web浏览任务中常见的失败模式,如信息提取错误、导航错误等,设计了特定的生成策略。对抗过滤则用于去除合成数据中过于简单或不合理的问题,以保证诊断分割的有效性。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
在K-BrowseComp-Verified子集上,GPT-5.5、DeepSeek-V4-Pro和GLM-5.1等前沿LLM仅达到30.00--45.67%的准确率,与BrowseComp相比大幅下降。韩国LLM的准确率更低,仅为0.00--10.33%。在对抗过滤的合成诊断分割上,最强的模型也仅达到26.00%的准确率。这些结果表明,现有LLM在韩语Web浏览Agent能力方面仍有很大的提升空间。
🎯 应用场景
K-BrowseComp可用于评估和改进LLM在韩语Web浏览任务中的Agent能力,例如智能助手、信息检索和自动化任务执行。该基准测试可以帮助研究人员和开发者更好地了解LLM在韩语环境下的局限性,并开发出更有效的解决方案。此外,K-BrowseComp还可以促进韩语自然语言处理技术的发展,并推动韩国AI产业的进步。
📄 摘要(原文)
Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.