A Comparative Study of Specialized LLMs as Dense Retrievers
作者: Hengran Zhang, Keping Bi, Jiafeng Guo
分类: cs.IR, cs.AI, cs.CL, cs.LG
发布日期: 2025-07-05 (更新: 2025-08-06)
备注: Accepted by CCIR25 and published by Springer LNCS or LNAI
💡 一句话要点
研究领域LLM在稠密检索中的表现,揭示任务特化对检索效果的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 稠密检索 领域特化 零样本学习 监督学习 文本检索 代码检索
📋 核心要点
- 现有研究对领域特化LLM在检索任务中的影响探索不足,阻碍了统一检索器的发展。
- 本文通过对比不同类型LLM在文本和代码检索任务中的表现,分析了任务特化对检索能力的影响。
- 实验表明,数学专业化会降低检索性能,而视觉语言和代码专业LLM在零样本检索中表现出色。
📝 摘要(中文)
本文系统性地研究了领域特定的大型语言模型(LLM)的任务特化对其检索能力的影响。通过对八个Qwen2.5 7B LLM(包括基础模型、指令调优模型、代码/数学专业模型、长推理模型和视觉语言模型)进行广泛的实验,涵盖了零样本检索和监督学习设置,考察了它们在文本(BEIR基准)和代码(CoIR基准)检索任务上的表现。所有LLM还在MS MARCO数据集上进行了微调以评估监督性能。研究发现,数学专业化和长推理能力会导致性能下降,表明数学推理与语义匹配之间存在冲突。视觉语言模型和代码专业LLM在零样本检索中表现优异,甚至超过了代码检索任务中的BM25,并在监督设置中保持了与基础LLM相当的性能。这些发现为利用跨领域和跨模态融合的统一检索任务提供了有希望的方向。
🔬 方法详解
问题定义:论文旨在研究领域特定的大型语言模型(LLM)在稠密检索任务中的表现,特别是不同任务特化方式对检索效果的影响。现有方法缺乏对LLM领域特化与检索能力之间关系的系统性研究,难以指导统一检索器的设计。
核心思路:论文的核心思路是通过对比不同类型LLM(包括基础模型、指令调优模型、代码/数学专业模型、长推理模型和视觉语言模型)在不同检索任务上的表现,分析任务特化对检索能力的影响。通过这种方式,揭示不同特化方式的优缺点,为统一检索器的设计提供指导。
技术框架:整体框架包括以下几个阶段:1) 选择合适的LLM模型,包括Qwen2.5 7B系列的不同变体;2) 在零样本设置下,评估LLM在BEIR(文本检索)和CoIR(代码检索)基准上的表现;3) 在MS MARCO数据集上对所有LLM进行微调,评估其监督学习性能;4) 分析实验结果,比较不同LLM的检索效果,并探讨任务特化对检索能力的影响。
关键创新:论文的关键创新在于系统性地研究了领域特定LLM在稠密检索中的表现,并揭示了任务特化对检索效果的影响。特别地,论文发现数学专业化会降低检索性能,而视觉语言和代码专业LLM在零样本检索中表现出色。这些发现为统一检索器的设计提供了新的思路。
关键设计:论文的关键设计包括:1) 选择Qwen2.5 7B系列LLM,因为它具有良好的性能和可扩展性;2) 使用BEIR和CoIR基准评估文本和代码检索性能,保证了评估的全面性;3) 在MS MARCO数据集上进行微调,评估监督学习性能;4) 采用零样本和监督学习两种设置,全面评估LLM的检索能力。
📊 实验亮点
实验结果表明,数学专业化和长推理能力会导致检索性能下降。视觉语言模型和代码专业LLM在零样本检索中表现优异,甚至超过了代码检索任务中的BM25。在监督设置中,这些模型保持了与基础LLM相当的性能,证明了其在统一检索任务中的潜力。
🎯 应用场景
该研究成果可应用于构建统一的检索系统,能够处理文本、代码、图像等多模态内容。通过融合跨领域和跨模态的知识,可以提升检索的准确性和效率,应用于智能问答、信息检索、知识图谱等领域,具有重要的实际价值和广阔的应用前景。
📄 摘要(原文)
While large language models (LLMs) are increasingly deployed as dense retrievers, the impact of their domain-specific specialization on retrieval effectiveness remains underexplored. This investigation systematically examines how task-specific adaptations in LLMs influence their retrieval capabilities, an essential step toward developing unified retrievers capable of handling text, code, images, and multimodal content. We conduct extensive experiments with eight Qwen2.5 7B LLMs, including base, instruction-tuned, code/math-specialized, long reasoning, and vision-language models across zero-shot retrieval settings and the supervised setting. For the zero-shot retrieval settings, we consider text retrieval from the BEIR benchmark and code retrieval from the CoIR benchmark. Further, to evaluate supervised performance, all LLMs are fine-tuned on the MS MARCO dataset. We find that mathematical specialization and the long reasoning capability cause consistent degradation in three settings, indicating conflicts between mathematical reasoning and semantic matching. The vision-language model and code-specialized LLMs demonstrate superior zero-shot performance compared to other LLMs, even surpassing BM25 on the code retrieval task, and maintain comparable performance to base LLMs in supervised settings. These findings suggest promising directions for the unified retrieval task leveraging cross-domain and cross-modal fusion.