From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator

📄 arXiv: 2605.26403v1 📥 PDF

作者: Xiaohua Wang, Jiakang Yuan, Zisu Huang, Muzhao Tian, Changze Lv, Kaitao Song, Tao Chen, Xiaoqing Zheng

分类: cs.AI

发布日期: 2026-05-26


💡 一句话要点

提出校准交互式强化学习,缓解多轮对话中由分布偏移导致的问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 对话系统 强化学习 分布偏移 模拟器对齐 人机交互

📋 核心要点

  1. 现有基于静态上下文或Prompt模拟器的对话Agent训练方法,面临上下文分布偏移的挑战,导致对话质量下降。
  2. 论文提出校准交互式强化学习框架,通过模拟器对齐来减少模拟到真实的差距,从而缓解分布偏移。
  3. 实验结果表明,该方法显著优于静态上下文基线,并通过校准模拟器进一步提升了下游任务的性能。

📝 摘要(中文)

本文旨在开发基于大型语言模型(LLM)的高交互式对话Agent。现有研究主要集中于基于固定离线日志的静态上下文强化学习(Static Context RL)或使用基于Prompt的模拟器进行交互式强化学习(Interactive RL)。本文从理论上证明,这两种范式都受到上下文分布偏移的根本限制,即训练期间观察到的对话历史与实际对话中遇到的对话历史不匹配。这种偏移在多轮对话中呈平方级增长,严重降低对话质量。具体来说,这种偏移归因于两个不同的来源:(i)由在静态历史而非自生成轨迹上训练引起的策略诱导偏移;(ii)由模拟行为与真实人类行为之间的差异引起的模拟器诱导偏移。为了应对这些挑战,我们提出了校准交互式强化学习(Calibrated Interactive RL),这是一个将交互式RL与模拟器对齐相结合的统一框架。通过将模拟器与人类交互模式对齐,我们的方法减少了模拟到真实的差距,并减轻了复合分布偏移。跨多个对话任务的实验证实了我们的理论分析:(i)通过减轻策略分布偏移,交互式RL显著优于静态上下文基线;(ii)使用我们的对齐方法校准模拟器进一步弥合了模拟到真实的差距,从而产生了最先进的下游性能。

🔬 方法详解

问题定义:现有基于静态上下文强化学习和交互式强化学习的对话Agent训练方法,都面临着上下文分布偏移的问题。静态上下文强化学习依赖于离线日志,无法反映Agent自身策略的影响;交互式强化学习则依赖于模拟器,但模拟器与真实人类行为存在差异。这两种偏移在多轮对话中会累积,导致Agent在实际对话中的表现不佳。

核心思路:论文的核心思路是通过校准模拟器,使其更接近真实人类的交互模式,从而减少模拟到真实的差距,并缓解分布偏移。具体来说,就是将交互式强化学习与模拟器对齐相结合,形成一个统一的框架。

技术框架:Calibrated Interactive RL框架包含两个主要部分:交互式强化学习和模拟器对齐。交互式强化学习部分负责训练对话Agent的策略,使其能够根据当前对话状态生成合适的回复。模拟器对齐部分负责调整模拟器的行为,使其更接近真实人类的交互模式。这两个部分相互作用,共同优化对话Agent的性能。

关键创新:最重要的技术创新点在于模拟器对齐方法。该方法通过学习真实人类的交互模式,并将其融入到模拟器中,从而减少了模拟器与真实人类行为之间的差异。这种对齐方法能够有效地缓解模拟器诱导的分布偏移,提高对话Agent在实际对话中的表现。

关键设计:论文中关于模拟器对齐的具体技术细节未知。但可以推测,可能涉及到使用真实对话数据训练一个判别器,用于区分模拟器生成的对话和真实人类生成的对话。然后,通过优化模拟器,使其生成的对话更难以被判别器区分,从而实现模拟器与真实人类交互模式的对齐。具体的损失函数、网络结构等细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Calibrated Interactive RL框架显著优于静态上下文基线,证明了交互式强化学习在缓解策略分布偏移方面的优势。此外,通过校准模拟器,该方法进一步提升了下游任务的性能,表明模拟器对齐能够有效减少模拟到真实的差距。具体的性能提升数据未知,需要在论文中进一步查找。

🎯 应用场景

该研究成果可应用于各种人机对话系统,例如智能客服、聊天机器人、虚拟助手等。通过缓解分布偏移,可以提高对话Agent在实际应用中的鲁棒性和对话质量,从而改善用户体验,并降低人工干预的需求。未来,该方法还可以扩展到其他需要模拟环境进行训练的强化学习任务中。

📄 摘要(原文)

A long-standing goal of the research community is to develop highly interactive LLM-based dialogue agents. Recent research focuses on optimizing policies based on fixed offline logs (Static Context RL) or using a prompt-based simulator (Interactive RL). In this work, we theoretically show that both paradigms are fundamentally limited by context distribution shift--a mismatch between dialogue histories observed during training and those encountered in real conversations. This shift compounds quadratically over turns and severely degrades dialogue quality. Specifically, we attribute this shift to two distinct sources: (i) policy-induced shift, arising from training on static histories rather than self-generated trajectories; and (ii) simulator-induced shift, stemming from discrepancies between simulated and real human behaviors. To address these challenges, we propose Calibrated Interactive RL, a unified framework that couples interactive RL with simulator alignment. By aligning the simulator with human interaction patterns, our approach reduces the sim-to-real gap and mitigates compounding distribution shifts. Experiments across multiple dialogue tasks confirm our theoretical analysis: (i) Interactive RL significantly outperforms the Static Context baseline by mitigating policy distribution shift; and (ii) calibrating simulators with our alignment method further bridges the sim-to-real gap, yielding state-of-the-art downstream performance.