ReFilter: Improving Robustness of Retrieval-Augmented Generation via Gated Filter

📄 arXiv: 2602.12709v1 📥 PDF

作者: Yixin Chen, Ying Xiong, Shangyu Wu, Xiangrui Ke, Nan Guan, Chun Jason Xue

分类: cs.CL

发布日期: 2026-02-13


💡 一句话要点

ReFilter:通过门控滤波器提升检索增强生成在知识密集型问答中的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG 门控机制 token级别过滤 知识密集型问答

📋 核心要点

  1. 现有RAG方法在检索规模增大时,难以有效处理检索结果中的噪声和冗余信息,导致性能下降。
  2. ReFilter提出一种基于隐变量的token级别过滤和融合框架,通过门控机制对token进行加权,从而筛选信息。
  3. 实验表明,ReFilter在通用和生物医学问答任务上均优于现有方法,尤其是在零样本迁移设置下。

📝 摘要(中文)

检索增强生成(RAG)已成为知识密集型问答中,利用外部证据增强大型语言模型(LLM)的主流范式。一个核心设计选择是如何将检索到的样本融入LLM,现有的内部融合方法大致可分为基于查询的融合、参数融合和基于隐变量的融合。尽管这些方法在适度的检索规模下有效,但随着检索候选数量k的增加,它们通常无法很好地扩展:更大的k提高了证据覆盖率,但实际的top-k检索不可避免地包含不相关或冗余的内容,并增加了推理成本。为了解决这些限制,我们提出了一种新的基于隐变量的融合框架ReFilter,它执行token级别的过滤和融合。ReFilter由三个关键组件组成:用于编码上下文特征的上下文编码器、用于加权每个token的门控滤波器,以及用于将加权token特征集成到LLM隐藏状态中的token融合模块。我们在四个通用领域QA基准测试上的实验表明,ReFilter在领域内适应和跨领域迁移下始终取得最佳平均性能。ReFilter进一步推广到五个生物医学QA基准测试中,在没有领域微调的情况下进行零样本迁移,使用Qwen2.5-14B-Instruct达到70.01%的平均准确率。

🔬 方法详解

问题定义:论文旨在解决检索增强生成(RAG)中,随着检索数量增加,检索结果中包含的噪声和冗余信息导致性能下降的问题。现有方法,如基于查询的融合、参数融合和基于隐变量的融合,在处理大规模检索结果时,无法有效区分相关和不相关信息,导致LLM生成质量下降,同时增加计算成本。

核心思路:ReFilter的核心思路是在token级别对检索到的信息进行过滤和融合。通过学习一个门控机制,为每个token分配权重,从而突出重要信息,抑制噪声信息。这种token级别的细粒度控制,使得模型能够更有效地利用检索结果,提高生成质量。

技术框架:ReFilter框架包含三个主要模块:1) 上下文编码器:用于编码检索到的上下文信息,提取上下文特征。2) 门控滤波器:基于上下文特征,为每个token生成一个权重,用于衡量该token的重要性。3) token融合模块:将加权后的token特征融入到LLM的隐藏状态中,从而影响LLM的生成过程。整个流程是先对检索到的文档进行编码,然后通过门控滤波器进行token级别的筛选,最后将筛选后的信息融入到LLM中。

关键创新:ReFilter的关键创新在于其token级别的门控过滤机制。与现有方法相比,ReFilter不是简单地将所有检索到的信息都融入到LLM中,而是通过学习一个门控机制,对每个token进行加权,从而实现更精细的信息筛选。这种token级别的控制,使得模型能够更有效地利用检索结果,抑制噪声信息的影响。

关键设计:ReFilter的关键设计包括:1) 上下文编码器的选择,可以使用预训练的语言模型,如BERT或RoBERTa。2) 门控滤波器的设计,可以使用MLP或Transformer等结构,学习token的权重。3) token融合模块的设计,可以使用加法、乘法或注意力机制等方式,将加权后的token特征融入到LLM的隐藏状态中。损失函数的设计需要考虑生成质量和信息筛选的有效性,可以使用交叉熵损失和正则化项等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReFilter在四个通用领域QA基准测试上取得了最佳平均性能,并且在五个生物医学QA基准测试中实现了零样本迁移,使用Qwen2.5-14B-Instruct达到了70.01%的平均准确率。这些结果表明,ReFilter具有很强的泛化能力和鲁棒性,能够有效地处理不同领域和不同规模的检索结果。

🎯 应用场景

ReFilter具有广泛的应用前景,可应用于知识密集型问答、对话生成、文本摘要等领域。通过提高RAG的鲁棒性和效率,ReFilter可以提升LLM在各种实际应用中的性能,例如智能客服、信息检索、内容创作等。未来,ReFilter可以进一步扩展到处理多模态数据,例如图像和视频,从而实现更强大的检索增强生成系统。

📄 摘要(原文)

Retrieval-augmented generation (RAG) has become a dominant paradigm for grounding large language models (LLMs) with external evidence in knowledge-intensive question answering. A core design choice is how to fuse retrieved samples into the LLMs, where existing internal fusion approaches broadly fall into query-based fusion, parametric fusion, and latent-based fusion. Despite their effectiveness at modest retrieval scales, these methods often fail to scale gracefully as the number of retrieved candidates k increases: Larger k improves evidence coverage, yet realistic top-k retrieval inevitably contains irrelevant or redundant content and increases the inference cost. To address these limitations, we propose ReFilter, a novel latent-based fusion framework that performs token-level filtering and fusion. ReFilter consists of three key components: a context encoder for encoding context features, a gated filter for weighting each token, and a token fusion module for integrating the weighted token feature into the LLM's hidden states. Our experiments across four general-domain QA benchmarks show that ReFilter consistently achieves the best average performance under both in-domain adaptation and out-of-domain transfer. ReFilter further generalizes to five biomedical QA benchmarks in zero-shot transfer without domain fine-tuning, reaching 70.01% average accuracy with Qwen2.5-14B-Instruct.