FERA: Uncertainty-Aware Federated Reasoning for Large Language Models
作者: Ruhan Wang, Chengkai Huang, Zhiyong Wang, Junda Wu, Rui Wang, Tong Yu, Julian McAuley, Lina Yao, Dongruo Zhou
分类: cs.CL
发布日期: 2026-05-11
备注: 44 pages, 8 figures
💡 一句话要点
提出FERA框架:一种面向大语言模型的无训练联邦推理方法,通过不确定性感知实现协同推理优化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 大语言模型 协同推理 不确定性估计 隐私保护 无训练框架
📋 核心要点
- 核心问题:现有联邦学习方法难以在不共享原始数据的前提下,有效整合异构客户端的私有演示数据,且无法评估客户端在特定查询下的推理可靠性。
- 方法要点:提出FERA框架,通过迭代式协同优化,利用不确定性感知自批判聚合(UA-SCA)机制,对客户端推理轨迹进行动态加权与修正,实现无训练的推理能力提升。
- 实验效果:在多个推理基准测试中,FERA显著优于联邦训练及无训练基线,在保持通信与计算高效性的同时,随迭代轮次展现出持续的准确率提升。
📝 摘要(中文)
大语言模型(LLM)在高质量演示引导下展现出强大的推理能力,但此类数据常因隐私、监管或所有权限制而无法集中。本文研究联邦推理问题,即在不进行集中式训练或共享原始数据的前提下,通过服务器与持有私有演示的异构客户端协作,提升多步推理能力。核心挑战在于客户端的可靠性随查询而变,且服务器无法审查数据。为此,我们提出不确定性感知联邦推理(FERA),这是一种基于迭代式服务器-客户端协同优化的无训练框架。在通信轮次中,客户端生成带有轻量级不确定性估计的推理轨迹,服务器将其合成为改进的推理结果并重新分发。UA-SCA模块通过查询依赖的信任加权和结构化交叉验证解决冲突,不仅能识别低质量轨迹,还能修正错误步骤。理论分析证明了该协议的收敛性,实验表明FERA在多个推理基准上优于现有联邦及无训练基线。
🔬 方法详解
问题定义:论文旨在解决联邦环境下大语言模型的多步推理协同问题。痛点在于数据隐私限制导致无法集中训练,且客户端提供的推理轨迹质量参差不齐,服务器缺乏有效机制来判断特定查询下哪些客户端的贡献是可信的。
核心思路:采用“无训练”的迭代式协同优化策略。通过让客户端生成带有不确定性度量的推理轨迹,服务器利用这些度量进行加权聚合,并对冲突的推理步骤进行修正,从而在不更新模型参数的情况下提升整体推理水平。
技术框架:FERA框架包含多轮迭代过程。每轮中,客户端基于当前上下文生成推理轨迹及不确定性估计;服务器端运行UA-SCA模块,对收集到的轨迹进行信任加权、冲突检测与修正,最终将优化后的推理结果反馈给客户端作为下一轮的上下文。
关键创新:核心创新在于UA-SCA(不确定性感知自批判聚合)机制。它不仅能根据不确定性过滤低质量轨迹,还能通过结构化的交叉验证对错误推理步骤进行“修复”,将原本会被丢弃的低质量数据转化为有价值的推理信息。
关键设计:引入了查询依赖的信任加权函数,利用轻量级不确定性估计作为权重分配依据。理论上证明了该迭代协议的收敛性,并指出不确定性感知加权能够显著加速收敛过程,确保在有限通信轮次内达到最优性能。
🖼️ 关键图片
📊 实验亮点
FERA在多个主流推理基准测试中表现卓越,显著超越了传统的联邦微调方法及现有的无训练基线。实验数据表明,该方法不仅在首轮即表现出优异性能,且随着通信轮次的增加,推理准确率呈现持续且稳定的上升趋势,同时在通信带宽与计算资源消耗方面保持了极高的效率。
🎯 应用场景
该研究适用于医疗、金融及法律等对数据隐私要求极高的领域。在这些场景中,不同机构持有垂直领域的私有知识,FERA可实现跨机构的协同推理,在不泄露敏感数据的前提下,提升复杂决策与逻辑分析的准确性,具有极高的实际应用价值。
📄 摘要(原文)
Large language models (LLMs) exhibit strong reasoning capabilities when guided by high-quality demonstrations, yet such data is often distributed across organizations that cannot centralize it due to regulatory, proprietary, or institutional constraints. We study federated reasoning, where a server improves multi-step reasoning by coordinating with heterogeneous clients holding private demonstrations, without centralized training or raw data sharing. The key challenge is that client reliability is query-dependent, while the server cannot inspect client data to determine which contributions are trustworthy. To address this, we propose Uncertainty-Aware Federated Reasoning (FERA), a training-free framework based on iterative server-client co-refinement. Across communication rounds, clients generate reasoning traces with lightweight uncertainty estimates, and the server synthesizes them into improved reasoning that is redistributed as context for the next round, progressively improving both server outputs and client-side reasoning. Within each round, Uncertainty-Aware Self-Critique Aggregation (UA-SCA) resolves conflicts among heterogeneous client traces through query-dependent trust weighting and structured cross-client verification. Rather than simply discarding low-quality traces, UA-SCA revises flawed reasoning steps to recover useful information. We provide theoretical guarantees showing that the proposed iterative protocol converges and that uncertainty-aware weighting accelerates convergence. Experiments on multiple reasoning benchmarks show that FERA consistently outperforms both federated training and training-free baselines, achieving progressively higher accuracy across rounds while maintaining communication and computational efficiency.