Xetrieval: Mechanistically Explaining Dense Retrieval

📄 arXiv: 2605.29507v1 📥 PDF

作者: Zhixin Cai, Jun Bai, Yang Liu, Jiaqi Li, Yichi Zhang, Taichuan Li, Zhuofan Chen, Zixia Jia, Zilong Zheng, Wenge Rong

分类: cs.AI, cs.IR

发布日期: 2026-05-28

备注: Code: https://github.com/Hihiczx/Xetrieval ; Project page: https://hihiczx.github.io/Xetrieval

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Xetrieval:提出一种可解释的稠密检索框架,揭示embedding层面的推理机制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稠密检索 可解释性 嵌入表示 链式思考 特征分解 信息检索 推理机制

📋 核心要点

  1. 稠密检索决策过程不透明,现有解释方法侧重表面信号,无法深入理解embedding层面的检索机制。
  2. Xetrieval通过轻量级推理内部器增强embedding,并将其分解为稀疏可解释的特征,从而解释检索决策。
  3. 实验表明,Xetrieval能够发现连贯的可解释特征,提升pair-level干预效果,并支持任务级特征引导。

📝 摘要(中文)

解释稠密检索器为何赋予高相关性得分仍然具有挑战性,因为检索决策是通过不透明的高维嵌入做出的。现有的解释通常侧重于表面信号,如词汇匹配、token对齐或事后文本理由,因此对塑造嵌入层面稠密检索行为的潜在因素的洞察有限。我们提出了Xetrieval,一个嵌入层面的机制框架,用于解释稠密检索。Xetrieval首先引入了一个轻量级的推理内部器,它通过一次前向传递直接在嵌入空间中近似链式思考推理,用面向推理的信息丰富句子嵌入,同时避免了昂贵的自回归生成。然后,它将这些推理增强的嵌入分解为稀疏的、人类可解释的特征,每个特征都与连贯的自然语言描述相关联。通过聚合多个文档侧视图中的稀疏特征重叠,Xetrieval提供了对单个检索决策的特征级解释。在不同的检索器和基准测试上的实验表明,Xetrieval揭示了连贯的可解释特征,产生了更强的pair-level干预效果,并支持任务级的特征引导。

🔬 方法详解

问题定义:稠密检索模型在检索时,其决策过程隐藏在高维的embedding空间中,难以解释模型做出特定检索决策的原因。现有方法主要关注词汇匹配等表面信息,无法深入理解embedding层面的推理过程,限制了对模型行为的理解和控制。

核心思路:Xetrieval的核心思路是通过模拟链式思考(Chain-of-Thought)推理过程,增强embedding的推理能力,然后将增强后的embedding分解为稀疏且可解释的特征。通过分析这些特征,可以理解模型做出检索决策的关键因素。

技术框架:Xetrieval框架包含以下几个主要模块:1) 推理内部器(Reasoning Internalizer):这是一个轻量级的模块,用于在embedding空间中模拟链式思考推理,增强embedding的推理能力。2) 特征分解器(Feature Decomposer):该模块将推理增强的embedding分解为稀疏的、人类可解释的特征,每个特征都与一个自然语言描述相关联。3) 特征聚合器(Feature Aggregator):该模块聚合多个文档侧视图中的稀疏特征重叠,从而提供对单个检索决策的特征级解释。

关键创新:Xetrieval的关键创新在于它提供了一种嵌入层面的机制解释框架,能够揭示稠密检索模型内部的推理过程。与现有方法相比,Xetrieval不依赖于表面信号,而是直接在embedding空间中进行推理,从而能够更深入地理解模型的行为。此外,通过将embedding分解为稀疏可解释的特征,Xetrieval使得人们可以更容易地理解和控制模型的决策。

关键设计:推理内部器采用轻量级设计,避免了昂贵的自回归生成,提高了效率。特征分解器旨在生成稀疏且可解释的特征,每个特征都与一个自然语言描述相关联,方便人类理解。特征聚合器通过聚合多个文档侧视图的信息,提高了特征解释的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Xetrieval能够发现连贯的可解释特征,这些特征与检索任务相关。此外,Xetrieval还能够产生更强的pair-level干预效果,这意味着通过修改Xetrieval提取的特征,可以有效地改变模型的检索结果。实验还表明,Xetrieval支持任务级的特征引导,这意味着可以通过控制模型关注的特征,来提高模型在特定任务上的性能。

🎯 应用场景

Xetrieval可应用于提升搜索引擎、问答系统等信息检索系统的可解释性和可靠性。通过理解模型做出检索决策的原因,可以更好地诊断和修复模型中的问题,提高检索结果的质量。此外,Xetrieval还可以用于指导模型的训练,例如通过特征引导的方式,使模型更加关注重要的特征,从而提高模型的性能。

📄 摘要(原文)

Explaining why dense retrievers assign high relevance scores remains challenging because retrieval decisions are made through opaque high-dimensional embeddings. Existing explanations often focus on surface signals, such as lexical matches, token alignments, or post-hoc textual rationales, and thus provide limited insight into the latent factors that shape dense retrieval behavior at the embedding level. We propose \textit{Xetrieval}, an embedding-level mechanistic framework for explaining dense retrieval. \textit{Xetrieval} first introduces a lightweight reasoning internalizer that approximates Chain-of-Thought reasoning directly in the embedding space with a single forward pass, enriching sentence embeddings with reasoning-oriented information while avoiding expensive autoregressive generation. It then decomposes these reasoning-enhanced embeddings into sparse, human-interpretable features, each associated with a coherent natural language description. By aggregating sparse feature overlaps across multiple document-side views, \textit{Xetrieval} provides feature-level explanations of individual retrieval decisions. Experiments on diverse retrievers and benchmarks show that \textit{Xetrieval} uncovers coherent interpretable features, yields stronger pair-level intervention effects, and supports task-level feature steering. The project page and source code are available at https://hihiczx.github.io/Xetrieval .