QUPID: Quantified Understanding for Enhanced Performance, Insights, and Decisions in Korean Search Engines

📄 arXiv: 2505.07345v1 📥 PDF

作者: Ohjoon Kwon, Changsu Lee, Jihye Back, Lim Sun Suk, Inho Kang, Donghyeon Jeon

分类: cs.CL, cs.AI, cs.IR

发布日期: 2025-05-12

期刊: ACL 2025 Industry Track


💡 一句话要点

QUPID:结合架构多样性小模型的韩国搜索引擎相关性提升方案

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息检索 相关性评估 小型语言模型 模型组合 架构多样性 搜索引擎 计算效率

📋 核心要点

  1. 现有信息检索系统依赖大型语言模型进行相关性评估,但计算成本高昂,难以大规模部署。
  2. QUPID通过结合生成式和嵌入式两种小型语言模型,利用架构多样性提升相关性判断的准确率和效率。
  3. 实验表明,QUPID在相关性判断准确率和推理速度上均优于大型语言模型,并提升了实际搜索系统的nDCG@5。

📝 摘要(中文)

大型语言模型(LLM)已被广泛应用于信息检索中的相关性评估。然而,我们的研究表明,结合两种具有不同架构的小型语言模型(SLM)可以在这项任务中优于LLM。我们的方法——QUPID——集成了生成式SLM和基于嵌入的SLM,在实现更高相关性判断准确率的同时,降低了计算成本,优于最先进的LLM解决方案。这种计算效率使QUPID高度可扩展,适用于每天处理数百万查询的实际搜索系统。在各种文档类型的实验中,我们的方法表现出持续的性能改进(Cohen's Kappa为0.646,而领先的LLM为0.387),同时提供了快60倍的推理速度。此外,当集成到生产搜索管道中时,QUPID将nDCG@5分数提高了1.9%。这些发现强调了模型组合中架构多样性如何显著提高信息检索系统的搜索相关性和运营效率。

🔬 方法详解

问题定义:论文旨在解决信息检索中相关性评估的问题。现有方法主要依赖大型语言模型(LLM),虽然性能不错,但计算成本高,推理速度慢,难以满足大规模搜索系统的需求。因此,需要一种更高效、更准确的相关性评估方法。

核心思路:论文的核心思路是利用小型语言模型(SLM)的组合,特别是结合具有不同架构的SLM,来提升相关性评估的性能。通过结合生成式SLM和基于嵌入的SLM,可以充分利用各自的优势,实现更高的准确率和更快的推理速度。这种架构多样性的组合是提升性能的关键。

技术框架:QUPID的技术框架主要包含两个部分:一个生成式SLM和一个基于嵌入的SLM。生成式SLM负责生成文本,捕捉query和document之间的语义关系;基于嵌入的SLM负责将query和document嵌入到向量空间中,计算相似度。这两个SLM的输出被结合起来,用于最终的相关性判断。整个流程包括query和document的预处理、SLM的推理、结果的融合和相关性评分。

关键创新:论文最重要的技术创新点在于结合了具有不同架构的SLM。这种架构多样性的组合能够充分利用不同模型的优势,从而在性能上超越单一的LLM。此外,QUPID在保证性能的同时,显著降低了计算成本,使其更适用于大规模搜索系统。

关键设计:论文的关键设计包括选择合适的生成式SLM和基于嵌入的SLM,以及如何有效地融合它们的输出。具体的参数设置、损失函数和网络结构等技术细节在论文中可能没有详细描述,属于未知信息。但整体思路是利用两种模型的互补性,提升相关性评估的准确率和效率。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

QUPID在实验中表现出色,Cohen's Kappa值为0.646,而领先的LLM为0.387,显著提升了相关性判断的准确率。同时,QUPID的推理速度比LLM快60倍,大大降低了计算成本。此外,当集成到实际生产搜索管道中时,QUPID将nDCG@5分数提高了1.9%,证明了其在实际应用中的有效性。

🎯 应用场景

QUPID具有广泛的应用前景,可用于提升各种信息检索系统的性能,例如网页搜索、电商搜索、知识库搜索等。该方法能够提高搜索结果的相关性,改善用户体验,并降低计算成本,具有重要的实际价值。未来,QUPID可以进一步扩展到其他自然语言处理任务中,例如问答系统、文本摘要等。

📄 摘要(原文)

Large language models (LLMs) have been widely used for relevance assessment in information retrieval. However, our study demonstrates that combining two distinct small language models (SLMs) with different architectures can outperform LLMs in this task. Our approach -- QUPID -- integrates a generative SLM with an embedding-based SLM, achieving higher relevance judgment accuracy while reducing computational costs compared to state-of-the-art LLM solutions. This computational efficiency makes QUPID highly scalable for real-world search systems processing millions of queries daily. In experiments across diverse document types, our method demonstrated consistent performance improvements (Cohen's Kappa of 0.646 versus 0.387 for leading LLMs) while offering 60x faster inference times. Furthermore, when integrated into production search pipelines, QUPID improved nDCG@5 scores by 1.9%. These findings underscore how architectural diversity in model combinations can significantly enhance both search relevance and operational efficiency in information retrieval systems.