From Relevance to Authority: Authority-aware Generative Retrieval in Web Search Engines

📄 arXiv: 2604.13468v1 📥 PDF

作者: Sunkyung Lee, Jihye Back, Donghyeon Jeon, Soonhwan Kwon, Moonkwon Kim, Inho Kang, Jongwuk Lee

分类: cs.IR, cs.CL

发布日期: 2026-04-15


💡 一句话要点

提出AuthGR框架,将权威性融入生成式检索,提升Web搜索的可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式检索 信息检索 权威性 多模态学习 视觉-语言模型 A/B测试 Web搜索

📋 核心要点

  1. 现有生成式检索侧重相关性,忽略了文档权威性,在高风险领域易引入不可靠信息。
  2. 提出AuthGR框架,通过多模态权威评分和三阶段训练,将权威性融入生成式检索。
  3. 实验表明AuthGR能显著提升权威性和准确性,在线A/B测试证实用户参与度和可靠性提升。

📝 摘要(中文)

生成式信息检索(GenIR)将检索过程建模为文本到文本的生成任务,利用大型语言模型的丰富知识。然而,现有工作主要优化相关性,往往忽略文档的可信度。这在医疗保健和金融等高风险领域至关重要,因为仅依赖语义相关性可能检索到不可靠的信息。为了解决这个问题,我们提出了权威感知生成式检索器(AuthGR),这是第一个将权威性纳入GenIR的框架。AuthGR由三个关键组件组成:(i)多模态权威评分,它采用视觉-语言模型来量化文本和视觉线索中的权威性;(ii)一个三阶段训练流程,逐步将权威感知灌输到检索器中;(iii)一个用于稳健部署的混合集成流程。离线评估表明,AuthGR成功地提高了权威性和准确性,我们的3B模型与14B基线相匹配。至关重要的是,在商业网络搜索平台上进行的大规模在线A/B测试和人工评估证实了真实用户参与度和可靠性的显著提高。

🔬 方法详解

问题定义:现有生成式信息检索方法主要关注检索结果与查询的相关性,而忽略了文档本身的权威性和可信度。在高风险领域,例如医疗和金融,检索到不权威或虚假的信息会造成严重后果。因此,如何将文档权威性纳入生成式检索是一个亟待解决的问题。

核心思路:AuthGR的核心思路是通过多模态信息融合和渐进式训练,使生成式检索器能够感知和利用文档的权威性信息。具体来说,利用视觉-语言模型提取文档的视觉特征,结合文本信息进行权威性评分,并在训练过程中逐步引导模型关注权威性。

技术框架:AuthGR框架包含三个主要模块:(1) 多模态权威评分模块:使用视觉-语言模型提取文档的文本和视觉特征,并计算权威性得分。(2) 三阶段训练流程:逐步将权威感知灌输到检索器中,包括预训练、权威性微调和排序优化。(3) 混合集成流程:结合多个AuthGR模型,提高检索的鲁棒性和准确性。

关键创新:AuthGR的关键创新在于首次将权威性信息融入到生成式信息检索框架中。与传统的基于相关性的检索方法不同,AuthGR能够同时考虑文档的相关性和权威性,从而提高检索结果的可靠性。此外,多模态权威评分模块和三阶段训练流程也是AuthGR的创新之处。

关键设计:多模态权威评分模块使用预训练的视觉-语言模型(例如CLIP)提取文档的文本和视觉特征,然后使用一个简单的神经网络将这些特征融合,并输出权威性得分。三阶段训练流程包括:(1) 预训练:使用大规模文本数据预训练生成式检索器。(2) 权威性微调:使用带有权威性标签的数据微调检索器,使其能够感知权威性。(3) 排序优化:使用排序损失函数优化检索器的排序能力,使其能够将更权威的文档排在前面。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AuthGR在离线评估中显著提升了权威性和准确性,3B模型性能与14B基线模型相当。在线A/B测试表明,AuthGR在商业Web搜索平台中显著提高了用户参与度和可靠性。人工评估也证实了AuthGR在提升检索结果质量方面的有效性。

🎯 应用场景

AuthGR可应用于对信息可靠性要求高的领域,如医疗健康、金融服务、法律咨询等。通过提升检索结果的权威性和准确性,AuthGR能够帮助用户获取更可靠的信息,降低因错误信息造成的风险。未来,AuthGR还可扩展到其他信息检索场景,例如新闻推荐、学术搜索等。

📄 摘要(原文)

Generative information retrieval (GenIR) formulates the retrieval process as a text-to-text generation task, leveraging the vast knowledge of large language models. However, existing works primarily optimize for relevance while often overlooking document trustworthiness. This is critical in high-stakes domains like healthcare and finance, where relying solely on semantic relevance risks retrieving unreliable information. To address this, we propose an Authority-aware Generative Retriever (AuthGR), the first framework that incorporates authority into GenIR. AuthGR consists of three key components: (i) Multimodal Authority Scoring, which employs a vision-language model to quantify authority from textual and visual cues; (ii) a Three-stage Training Pipeline to progressively instill authority awareness into the retriever; and (iii) a Hybrid Ensemble Pipeline for robust deployment. Offline evaluations demonstrate that AuthGR successfully enhances both authority and accuracy, with our 3B model matching a 14B baseline. Crucially, large-scale online A/B tests and human evaluations conducted on the commercial web search platform confirm significant improvements in real-world user engagement and reliability.