A Wolf in Sheep's Clothing: Targeted Routing Hijacking in Federated RAG

作者: Junjie Mu, Qiongxiu Li

分类: cs.CR, cs.CL, cs.IR

发布日期: 2026-05-27

备注: Under review. Code available at https://github.com/Junjie-Mu/routing-hijacking-fedrag

💡 一句话要点

针对联邦RAG的路由劫持攻击及其防御方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 联邦学习 检索增强生成 路由劫持 安全攻击 信任感知 后路由框架 隐私保护 MedQA-USMLE

📋 核心要点

联邦RAG依赖客户端提供的语义配置文件进行路由，存在被恶意客户端伪造配置文件进行路由劫持的风险。
提出一种信任感知的后路由框架，利用返回证据的反馈来重新加权客户端，抑制持续的路由劫持。
实验表明，该方法能够有效抑制路由劫持，并能迁移到学习的神经路由器，提升FedRAG的安全性。

📝 摘要（中文）

联邦检索增强生成（FedRAG）因其原始数据保留在本地而备受隐私敏感型应用的青睐。然而，路由必须依赖客户端提供的语义配置文件，这为恶意操纵创造了新的机会。本文提出了一种路由劫持攻击，这是一种路由阶段的攻击，其中恶意客户端伪造其配置文件以吸引目标查询，尽管其底层数据不相关。研究表明这种漏洞非常严重。在三个具有代表性的FedRAG路由架构中，路由劫持始终会错误地路由目标查询，并导致下游中断和失败，包括缺少证据、投毒、不正确的答案和幻觉。在一个高风险的MedQA-USMLE案例研究中，进一步表明受污染的检索证据会误导各种规模的模型，导致不正确的答案、幻觉和谄媚性失败。现有的防御措施并不能弥补这一差距：加密路由保留了被利用的排名，而拜占庭鲁棒联邦学习（FL）规则对异构路由配置文件的迁移效果不佳。为了解决这一差距，本文提出了一种信任感知的后路由框架，该框架使用返回证据的反馈（包括检索相关性、配置文件一致性和跨客户端协议）来重新加权客户端；在线实验表明，它可以抑制对重复查询的持续劫持，并迁移到学习的神经路由器。研究结果确立了路由完整性作为FedRAG中的一项新的安全挑战，并强调需要更强大的防御措施来实现安全的联邦检索。

🔬 方法详解

问题定义：论文旨在解决联邦检索增强生成（FedRAG）中存在的路由劫持问题。在FedRAG中，由于数据隐私保护，路由决策依赖于客户端提供的语义配置文件。恶意客户端可以伪造这些配置文件，将不相关的查询路由到自己，从而影响检索结果的质量和准确性。现有方法，如加密路由和拜占庭鲁棒联邦学习，无法有效防御这种攻击。

核心思路：论文的核心思路是引入一种信任感知的后路由框架，该框架通过分析返回的证据来评估客户端的可靠性，并根据可靠性对客户端进行重新加权。这种方法不依赖于预先设定的规则或加密，而是基于实际的检索结果来动态调整客户端的权重，从而抑制恶意客户端的路由劫持行为。

技术框架：该框架主要包含以下几个阶段：1) 客户端提供语义配置文件；2) 路由算法根据配置文件将查询路由到选定的客户端；3) 客户端执行检索并返回证据；4) 信任感知模块分析返回的证据，评估客户端的检索相关性、配置文件一致性和跨客户端协议；5) 根据评估结果，对客户端进行重新加权；6) 最终的检索结果由加权后的客户端证据组合而成。

关键创新：该论文的关键创新在于提出了一种信任感知的后路由框架，该框架能够利用返回证据的反馈来动态评估客户端的可靠性，并根据可靠性对客户端进行重新加权。这种方法不需要修改现有的路由算法，也不需要额外的加密措施，而是通过分析检索结果来识别和抑制恶意客户端。

关键设计：信任感知模块的关键设计包括：1) 检索相关性评估，用于衡量返回证据与查询的相关程度；2) 配置文件一致性评估，用于衡量返回证据与客户端提供的语义配置文件的一致性；3) 跨客户端协议评估，用于衡量不同客户端返回证据之间的一致性。这些评估结果被用于计算客户端的信任权重，并用于重新加权客户端的证据。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的信任感知后路由框架能够有效抑制路由劫持攻击，提高FedRAG系统的检索准确率。在高风险的MedQA-USMLE案例研究中，该方法能够显著减少错误答案、幻觉和谄媚性失败。在线实验表明，该方法能够抑制对重复查询的持续劫持，并能迁移到学习的神经路由器。

🎯 应用场景

该研究成果可应用于各种隐私敏感的联邦学习场景，例如联邦医疗诊断、金融风控等。通过防御路由劫持攻击，可以提高联邦RAG系统的安全性和可靠性，确保用户能够获得准确和高质量的检索结果。未来的研究可以进一步探索更有效的信任评估方法和更鲁棒的防御机制。

📄 摘要（原文）

Federated Retrieval-Augmented Generation (FedRAG) is attractive for privacy-sensitive applications because raw data remain local. As a result, routing must rely on client-provided semantic profiles, creating a new opportunity for manipulation. We introduce Routing Hijacking, a routing-stage attack in which a malicious client forges its profile to attract target queries despite having irrelevant underlying data. We show that this vulnerability is severe. Across three representative FedRAG routing architectures, Routing Hijacking consistently misroutes target queries and leads to downstream disruptions and failures, including missing evidence, poisoning, incorrect answers, and hallucinations. In a high-stakes MedQA-USMLE case study, we further show that poisoned retrieved evidence can mislead models across scales, leading to incorrect answers, hallucinations, and sycophantic failures. Existing defenses do not close this gap: encrypted routing preserves the exploited ranking, and Byzantine-robust Federated Learning (FL) rules transfer poorly to heterogeneous routing profiles. To address this gap, we propose a trust-aware post-routing framework that reweights clients using returned-evidence feedback, including retrieval relevance, profile consistency, and cross-client agreement; online experiments show that it suppresses persistent hijacking over recurring queries and transfers to a learned neural router. Our findings establish routing integrity as a new security challenge in FedRAG and highlight the need for stronger defenses for secure federated retrieval.

A Wolf in Sheep's Clothing: Targeted Routing Hijacking in Federated RAG

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理