AdaptFuse: Training-Free Sequential Preference Learning via Externalized Bayesian Inference

📄 arXiv: 2604.03925 📥 PDF

作者: Fangzhou Lin, Peiran Li, Shuo Xing, Siyuan Yang, Qianwen Ge, Kazunori Yamada, Ziming Zhang, Haichong Zhang, Zhengzhong Tu

分类: cs.CL, cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出AdaptFuse以解决大语言模型在用户交互中的推理问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化推荐 贝叶斯推理 无训练框架 多轮交互 隐私保护

📋 核心要点

  1. 现有方法在多轮用户交互中无法有效积累证据,导致大语言模型的推理能力受限。
  2. AdaptFuse框架通过外部化概率计算,结合符号模块和冻结语言模型,实现无训练的个性化推荐。
  3. 在航班、酒店和网络购物推荐任务中,AdaptFuse在准确率上持续优于基线模型,验证了其有效性。

📝 摘要(中文)

大语言模型在多轮用户交互中难以积累证据,无法以贝叶斯推理的方式更新信念。现有解决方案需要在敏感用户交互数据上进行微调,限制了其在隐私敏感环境中的适用性。我们提出了AdaptFuse,一个无训练的框架,完全将概率计算外部化:一个符号模块在离散假设集上维护贝叶斯后验,而一个冻结的语言模型通过多样本Dirichlet聚合提供语义推理。通过熵自适应融合将这两种信号结合,自动根据预测置信度加权每个来源,随着证据的积累,逐渐将依赖从语言模型转移到符号后验。我们在航班推荐、酒店推荐和网络购物三个领域进行了评估,结果表明AdaptFuse在所有任务上均优于提示基线和微调的贝叶斯教学模型,准确率随着交互轮次的增加而单调提升。这些结果表明,原则性的推理时间算法可以替代个性化推荐中的微调,而无需存储或训练敏感用户数据。所有代码和材料将开源。

🔬 方法详解

问题定义:本论文旨在解决大语言模型在多轮用户交互中无法有效更新信念的问题。现有方法依赖于敏感用户数据进行微调,存在隐私风险和适用性限制。

核心思路:AdaptFuse通过将概率计算外部化,利用符号模块维护贝叶斯后验,同时使用冻结的语言模型进行语义推理,从而实现无训练的个性化推荐。

技术框架:AdaptFuse的整体架构包括两个主要模块:一个符号模块负责维护离散假设集的贝叶斯后验,另一个冻结的语言模型通过多样本Dirichlet聚合提供语义信息。两者通过熵自适应融合结合,自动调整信号权重。

关键创新:AdaptFuse的核心创新在于将推理过程与模型训练分离,避免了对敏感数据的依赖,且通过熵自适应融合机制提升了推理的准确性和可靠性。

关键设计:在设计中,使用了多样本Dirichlet聚合来整合语言模型的输出,并通过熵自适应机制动态调整各信号的权重,以适应证据的累积过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在航班、酒店和网络购物推荐任务中,AdaptFuse在所有任务上均优于提示基线和微调的贝叶斯教学模型,准确率随着交互轮次的增加而单调提升,展示了其在个性化推荐中的有效性。

🎯 应用场景

该研究的潜在应用领域包括个性化推荐系统、在线购物平台和旅游服务等。通过无训练的方式,AdaptFuse能够在保护用户隐私的同时,提供高效的推荐服务,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Large language models struggle to accumulate evidence across multiple rounds of user interaction, failing to update their beliefs in a manner consistent with Bayesian inference. Existing solutions require fine-tuning on sensitive user interaction data, limiting their applicability in privacy-conscious settings. We propose AdaptFuse, a training-free framework that externalizes probabilistic computation entirely from the LLM: a symbolic module maintains a Bayesian posterior over a discrete hypothesis set, while a frozen LLM contributes semantic reasoning via multi-sample Dirichlet aggregation. The two signals are combined through entropy-adaptive fusion, which automatically weights each source by its predictive confidence, shifting reliance from the LLM to the symbolic posterior as evidence accumulates. We evaluate across three domains: flight recommendation, hotel recommendation, and web shopping; on Gemma 2 9B, Llama 3 8B, and Qwen 2.5 7B. AdaptFuse consistently outperforms both prompting baselines and fine-tuned Bayesian Teaching models on all tasks, with accuracy improving monotonically over interaction rounds. These results demonstrate that principled inference-time algorithms can substitute for fine-tuning in personalized recommendation, without storing or training on sensitive user data. All the code and materials will be open-sourced.