Xetrieval: Mechanistically Explaining Dense Retrieval

作者: Zhixin Cai, Jun Bai, Yang Liu, Jiaqi Li, Yichi Zhang, Taichuan Li, Zhuofan Chen, Zixia Jia, Zilong Zheng, Wenge Rong

分类: cs.AI, cs.IR

发布日期: 2026-05-28

备注: Code: https://github.com/Hihiczx/Xetrieval ; Project page: https://hihiczx.github.io/Xetrieval

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Xetrieval：提出一种可解释的稠密检索框架，揭示embedding层面的推理机制。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 稠密检索 可解释性 嵌入表示 链式思考 特征分解 信息检索 推理机制

📋 核心要点

稠密检索决策过程不透明，现有解释方法侧重表面信号，无法深入理解embedding层面的检索机制。
Xetrieval通过轻量级推理内部器增强embedding，并将其分解为稀疏可解释的特征，从而解释检索决策。
实验表明，Xetrieval能够发现连贯的可解释特征，提升pair-level干预效果，并支持任务级特征引导。

📝 摘要（中文）

解释稠密检索器为何赋予高相关性得分仍然具有挑战性，因为检索决策是通过不透明的高维嵌入做出的。现有的解释通常侧重于表面信号，如词汇匹配、token对齐或事后文本理由，因此对塑造嵌入层面稠密检索行为的潜在因素的洞察有限。我们提出了Xetrieval，一个嵌入层面的机制框架，用于解释稠密检索。Xetrieval首先引入了一个轻量级的推理内部器，它通过一次前向传递直接在嵌入空间中近似链式思考推理，用面向推理的信息丰富句子嵌入，同时避免了昂贵的自回归生成。然后，它将这些推理增强的嵌入分解为稀疏的、人类可解释的特征，每个特征都与连贯的自然语言描述相关联。通过聚合多个文档侧视图中的稀疏特征重叠，Xetrieval提供了对单个检索决策的特征级解释。在不同的检索器和基准测试上的实验表明，Xetrieval揭示了连贯的可解释特征，产生了更强的pair-level干预效果，并支持任务级的特征引导。

🔬 方法详解

问题定义：稠密检索模型在检索时，其决策过程隐藏在高维的embedding空间中，难以解释模型做出特定检索决策的原因。现有方法主要关注词汇匹配等表面信息，无法深入理解embedding层面的推理过程，限制了对模型行为的理解和控制。

核心思路：Xetrieval的核心思路是通过模拟链式思考（Chain-of-Thought）推理过程，增强embedding的推理能力，然后将增强后的embedding分解为稀疏且可解释的特征。通过分析这些特征，可以理解模型做出检索决策的关键因素。

技术框架：Xetrieval框架包含以下几个主要模块：1) 推理内部器（Reasoning Internalizer）：这是一个轻量级的模块，用于在embedding空间中模拟链式思考推理，增强embedding的推理能力。2) 特征分解器（Feature Decomposer）：该模块将推理增强的embedding分解为稀疏的、人类可解释的特征，每个特征都与一个自然语言描述相关联。3) 特征聚合器（Feature Aggregator）：该模块聚合多个文档侧视图中的稀疏特征重叠，从而提供对单个检索决策的特征级解释。

关键创新：Xetrieval的关键创新在于它提供了一种嵌入层面的机制解释框架，能够揭示稠密检索模型内部的推理过程。与现有方法相比，Xetrieval不依赖于表面信号，而是直接在embedding空间中进行推理，从而能够更深入地理解模型的行为。此外，通过将embedding分解为稀疏可解释的特征，Xetrieval使得人们可以更容易地理解和控制模型的决策。

关键设计：推理内部器采用轻量级设计，避免了昂贵的自回归生成，提高了效率。特征分解器旨在生成稀疏且可解释的特征，每个特征都与一个自然语言描述相关联，方便人类理解。特征聚合器通过聚合多个文档侧视图的信息，提高了特征解释的准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Xetrieval能够发现连贯的可解释特征，这些特征与检索任务相关。此外，Xetrieval还能够产生更强的pair-level干预效果，这意味着通过修改Xetrieval提取的特征，可以有效地改变模型的检索结果。实验还表明，Xetrieval支持任务级的特征引导，这意味着可以通过控制模型关注的特征，来提高模型在特定任务上的性能。

🎯 应用场景

Xetrieval可应用于提升搜索引擎、问答系统等信息检索系统的可解释性和可靠性。通过理解模型做出检索决策的原因，可以更好地诊断和修复模型中的问题，提高检索结果的质量。此外，Xetrieval还可以用于指导模型的训练，例如通过特征引导的方式，使模型更加关注重要的特征，从而提高模型的性能。

📄 摘要（原文）

Explaining why dense retrievers assign high relevance scores remains challenging because retrieval decisions are made through opaque high-dimensional embeddings. Existing explanations often focus on surface signals, such as lexical matches, token alignments, or post-hoc textual rationales, and thus provide limited insight into the latent factors that shape dense retrieval behavior at the embedding level. We propose \textit{Xetrieval}, an embedding-level mechanistic framework for explaining dense retrieval. \textit{Xetrieval} first introduces a lightweight reasoning internalizer that approximates Chain-of-Thought reasoning directly in the embedding space with a single forward pass, enriching sentence embeddings with reasoning-oriented information while avoiding expensive autoregressive generation. It then decomposes these reasoning-enhanced embeddings into sparse, human-interpretable features, each associated with a coherent natural language description. By aggregating sparse feature overlaps across multiple document-side views, \textit{Xetrieval} provides feature-level explanations of individual retrieval decisions. Experiments on diverse retrievers and benchmarks show that \textit{Xetrieval} uncovers coherent interpretable features, yields stronger pair-level intervention effects, and supports task-level feature steering. The project page and source code are available at https://hihiczx.github.io/Xetrieval .

Xetrieval: Mechanistically Explaining Dense Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理