Distilling Bayesian Belief States into Language Models for Auditable Negotiation

📄 arXiv: 2605.04507v1 📥 PDF

作者: Zongqi Cui, Baihan Lin

分类: cs.CL

发布日期: 2026-05-06

备注: Preprint. 24 pages, 6 figures, 18 tables. Code available at https://github.com/kaneis1/CaSiNo_negotiation-agent


💡 一句话要点

提出BOND框架,通过知识蒸馏提升谈判Agent信念状态的可审计性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 谈判Agent 信念状态 知识蒸馏 可审计性 贝叶斯方法

📋 核心要点

  1. 现有谈判Agent难以有效推断和追踪对手的信念状态,导致决策过程不透明。
  2. BOND框架通过贝叶斯方法显式建模对手信念,并利用知识蒸馏将信念状态迁移到小型语言模型。
  3. 实验表明,BOND在信念预测准确性和可审计性方面优于现有方法,并能有效揭示信念与行动之间的弱耦合。

📝 摘要(中文)

谈判Agent需要推断对手的价值偏好,在对话过程中更新这些信念,并在不确定性下选择行动。端到端的大型语言模型(LLM)可以模仿谈判对话,但其对手信念通常是隐式的,难以检查。我们提出了BOND(Bayesian Opponent-belief Negotiation Distillation),一个用于可审计谈判的框架。BOND包含一个基于LLM的贝叶斯教师模型,该模型根据六种可能的对手优先级排序对对话上下文进行评分,更新这些排序的后验概率,并使用后验概率进行基于菜单的决策。同时,一个较小的8B学生语言模型输出谈判行动和归一化的后验信念,作为带标签的文本。在CaSiNo谈判数据集中,BOND优于现有技术,并在对手优先级后验概率上实现了0.085的平均Brier分数。经过蒸馏的学生模型保留了大部分信念信号,实现了0.114的Brier分数,低于均匀六排序参考值5/36,约为0.139。与70B的结构化CoT基线相比,显著更小的8B学生模型产生了明显更好的引出后验校准。我们进一步通过后验轨迹、信念与策略误差分解以及后验前缀干预来展示可审计性。这些诊断表明,蒸馏比因果信念条件控制更强烈地保留了可评分的信念报告,使弱信念-行动耦合可见,而不是隐藏。

🔬 方法详解

问题定义:现有谈判Agent,特别是基于大型语言模型的Agent,其对手信念通常是隐式的,难以检查和审计。这使得我们难以理解Agent的决策过程,也难以诊断Agent的错误原因。因此,如何让谈判Agent的信念状态显式化、可解释,是一个重要的研究问题。

核心思路:BOND的核心思路是利用贝叶斯方法显式地建模对手的信念状态,并使用知识蒸馏技术将这些信念状态迁移到一个较小的语言模型中。通过这种方式,我们可以得到一个既能进行有效谈判,又能输出可解释的信念状态的Agent。

技术框架:BOND框架包含两个主要部分:一个基于LLM的贝叶斯教师模型和一个较小的学生语言模型。教师模型负责根据对话上下文对六种可能的对手优先级排序进行评分,并更新这些排序的后验概率。学生模型则负责输出谈判行动和归一化的后验信念,作为带标签的文本。整个流程可以看作是教师模型将信念知识蒸馏到学生模型的过程。

关键创新:BOND的关键创新在于将贝叶斯信念建模与知识蒸馏技术相结合,从而实现可审计的谈判Agent。与传统的端到端方法相比,BOND能够显式地输出Agent的信念状态,并允许我们对Agent的决策过程进行深入的分析和诊断。

关键设计:教师模型使用LLM对对话上下文进行编码,并使用一个评分函数来评估每种对手优先级排序的可能性。学生模型是一个较小的语言模型,经过训练后能够输出谈判行动和归一化的后验信念。损失函数包括行动预测损失和信念预测损失,旨在使学生模型能够准确地模仿教师模型的行为和信念。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BOND在CaSiNo谈判数据集中取得了显著的性能提升,优于现有技术,并在对手优先级后验概率上实现了0.085的平均Brier分数。经过蒸馏的学生模型保留了大部分信念信号,实现了0.114的Brier分数,低于均匀六排序参考值5/36,约为0.139。与70B的结构化CoT基线相比,显著更小的8B学生模型产生了明显更好的引出后验校准。

🎯 应用场景

BOND框架具有广泛的应用前景,例如在自动化谈判、智能客服、人机协作等领域。通过提供可审计的信念状态,BOND可以帮助我们更好地理解Agent的决策过程,并提高Agent的可信度和可靠性。此外,BOND还可以用于诊断Agent的错误原因,并为Agent的改进提供指导。

📄 摘要(原文)

Negotiation agents must infer what their counterpart values, update those beliefs over dialogue turns, and choose actions under uncertainty. End-to-end large language models (LLMs) can imitate negotiation dialogue, but their opponent beliefs are usually implicit and difficult to inspect. We propose BOND (Bayesian Opponent-belief Negotiation Distillation), a framework for auditable negotiation. BOND consists of an LLM-based Bayesian teacher that scores dialogue contexts against the six possible opponent priority orderings, updates a posterior over those orderings, and uses the posterior for menu-based decision making, as well as a smaller 8B student language model that emits both negotiation actions and normalized posterior beliefs as tagged text. In the CaSiNo negotiation dataset, BOND outperforms the state-of-the-art and achieves mean Brier score 0.085 over opponent-priority posteriors. The distilled student preserves much of this belief signal, achieving Brier 0.114, below the uniform six-ordering reference of 5/36, approximately 0.139. Compared with a 70B structured-CoT baseline, the significantly smaller 8B student model yields substantially better elicited posterior calibration. We further showcase auditability through posterior trajectories, belief-versus-policy error decomposition, and posterior-prefix interventions. These diagnostics reveal that distillation preserves a scoreable belief report more strongly than causal belief-conditioned control, making weak belief-action coupling visible, not hidden.