HotelQuEST: Balancing Quality and Efficiency in Agentic Search

📄 arXiv: 2602.23949v1 📥 PDF

作者: Guy Hadad, Shadi Iskander, Oren Kalinsky, Sofia Tolmach, Ran Levy, Haggai Roitman

分类: cs.IR, cs.AI

发布日期: 2026-02-27

备注: To be published in EACL 2026


💡 一句话要点

HotelQuEST:兼顾质量与效率的Agentic搜索评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic搜索 大型语言模型 评测基准 效率评估 未明确偏好

📋 核心要点

  1. 现有Agentic搜索评测侧重质量,忽略了实际部署中至关重要的效率问题,且缺乏对用户未明确偏好的有效评估。
  2. 论文提出HotelQuEST基准,包含多种难度酒店搜索查询,并通过收集澄清信息来显式化用户隐含偏好,从而更全面地评估Agentic搜索。
  3. 实验表明,基于LLM的Agent准确率高于传统检索器,但成本显著增加,揭示了现有Agentic搜索系统在效率方面的不足。

📝 摘要(中文)

Agentic搜索作为一种由大型语言模型(LLM)驱动的自适应检索系统,展现出巨大的潜力。然而,现有的评测基准主要关注质量,忽略了对实际部署至关重要的效率因素。此外,真实世界的用户查询通常包含未明确的偏好,而这在当前的agentic搜索评估中很大程度上未被探索。因此,尽管许多agentic搜索系统表现出色,但仍然不实用。本文提出了HotelQuEST,一个包含214个酒店搜索查询的基准,这些查询范围从简单的信息请求到复杂的查询,能够评估各种查询难度。我们还通过收集明确标注者隐含偏好的澄清信息,解决了评估未明确用户偏好的挑战。我们发现,基于LLM的agent比传统检索器实现了更高的准确率,但由于冗余的工具调用和未能将查询复杂性与模型能力相匹配的次优路由,成本也大大提高。我们的分析揭示了当前agentic搜索系统中的效率低下问题,并证明了成本感知优化的巨大潜力。

🔬 方法详解

问题定义:现有Agentic搜索评测基准主要关注搜索质量,忽略了实际应用中至关重要的效率问题,例如工具调用次数、响应时间等。此外,真实用户查询往往包含未明确的偏好,例如对酒店位置、设施等的隐式需求,而现有评测方法难以有效评估Agentic搜索系统处理此类模糊查询的能力。这导致许多Agentic搜索系统虽然在实验室环境中表现良好,但在实际应用中成本过高或无法满足用户需求。

核心思路:论文的核心思路是构建一个更贴近真实用户场景的Agentic搜索评测基准,同时关注搜索质量和效率。通过引入包含多种难度级别的酒店搜索查询,并收集用户对未明确偏好的澄清信息,从而更全面地评估Agentic搜索系统在实际应用中的性能。此外,论文还分析了现有Agentic搜索系统在效率方面的不足,并提出了成本感知优化的方向。

技术框架:HotelQuEST基准包含以下几个关键组成部分:1) 214个酒店搜索查询,涵盖从简单信息查询到复杂偏好查询的各种难度级别;2) 用户对未明确偏好的澄清信息,用于显式化用户的隐含需求;3) 评估指标,包括搜索准确率、工具调用次数、响应时间等,用于全面评估Agentic搜索系统的性能。整体流程是:给定一个用户查询,Agentic搜索系统需要利用各种工具(例如酒店预订API、地图API等)来检索相关信息,并最终生成满足用户需求的搜索结果。评估过程会同时考虑搜索结果的准确性和效率。

关键创新:论文的关键创新在于构建了一个更贴近真实用户场景的Agentic搜索评测基准,并引入了对效率和未明确用户偏好的评估。与现有基准相比,HotelQuEST更加关注Agentic搜索系统在实际应用中的性能,从而能够更有效地指导Agentic搜索系统的开发和优化。

关键设计:HotelQuEST基准中的查询设计考虑了多种因素,例如查询的难度级别、用户偏好的明确程度等。为了收集用户对未明确偏好的澄清信息,论文采用了人工标注的方式,要求标注者根据查询内容和自身偏好,对查询进行补充和完善。评估指标的设计也充分考虑了搜索质量和效率,例如搜索准确率采用信息检索领域常用的指标,而效率则通过工具调用次数和响应时间来衡量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于LLM的Agent在HotelQuEST基准上实现了比传统检索器更高的准确率,但由于冗余的工具调用和次优路由,成本也显著增加。具体来说,LLM-based Agent的准确率提升了X%,但工具调用次数增加了Y%,响应时间增加了Z%(具体数值未知,原文未提供)。这表明现有Agentic搜索系统在效率方面存在很大的优化空间。

🎯 应用场景

该研究成果可应用于智能旅游助手、个性化推荐系统等领域。通过更全面地评估Agentic搜索系统的性能,可以帮助开发者构建更高效、更实用的智能搜索应用,提升用户体验,并降低运营成本。未来,该研究可以扩展到其他领域,例如电商搜索、医疗信息检索等,推动Agentic搜索技术在更广泛领域的应用。

📄 摘要(原文)

Agentic search has emerged as a promising paradigm for adaptive retrieval systems powered by large language models (LLMs). However, existing benchmarks primarily focus on quality, overlooking efficiency factors that are critical for real-world deployment. Moreover, real-world user queries often contain underspecified preferences, a challenge that remains largely underexplored in current agentic search evaluation. As a result, many agentic search systems remain impractical despite their impressive performance. In this work, we introduce HotelQuEST, a benchmark comprising 214 hotel search queries that range from simple factual requests to complex queries, enabling evaluation across the full spectrum of query difficulty. We further address the challenge of evaluating underspecified user preferences by collecting clarifications that make annotators' implicit preferences explicit for evaluation. We find that LLM-based agents achieve higher accuracy than traditional retrievers, but at substantially higher costs due to redundant tool calls and suboptimal routing that fails to match query complexity to model capability. Our analysis exposes inefficiencies in current agentic search systems and demonstrates substantial potential for cost-aware optimization.