From Myopic Selection to Long-Horizon Awareness: Sequential LLM Routing for Multi-Turn Dialogue
作者: Jiarui Zhang, Xiangyu Liu, Yong Hu, Chaoyue Niu, Hang Zeng, Shaojie Tang, Fan Wu, Guihai Chen
分类: cs.CL
发布日期: 2026-04-14
💡 一句话要点
DialRouter:面向多轮对话的序列LLM路由方法,提升长时交互性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多轮对话 LLM路由 序列决策 蒙特卡洛树搜索 强化学习
📋 核心要点
- 现有LLM路由方法在多轮对话中表现不佳,无法充分利用交互动态和延迟奖励。
- DialRouter通过MCTS探索对话分支,学习长时序路由策略,优化累积奖励。
- 实验表明,DialRouter在任务成功率和性能-成本权衡方面显著优于现有方法。
📝 摘要(中文)
多轮对话是与大型语言模型(LLMs)交互的主要形式。虽然LLM路由在单轮设置中有效,但由于交互动态和延迟奖励,现有方法无法在多轮对话中最大化累积性能。为了解决这个挑战,我们从短视的单轮选择转向多轮对话的长时序序列路由。因此,我们提出了DialRouter,它首先执行蒙特卡洛树搜索(MCTS)来探索由不同LLM选择引起的对话分支,并收集具有高累积奖励的轨迹。然后,DialRouter从搜索导出的数据中学习轻量级的路由策略,并结合基于检索的未来状态近似,从而实现无需在线搜索的多轮路由。在开放域和领域特定对话任务中,对开源和闭源LLM的各种候选集进行的实验表明,DialRouter在任务成功率方面显著优于单个LLM和现有的路由基线,并且在与成本感知的奖励相结合时,实现了卓越的性能-成本权衡。
🔬 方法详解
问题定义:现有LLM路由方法主要关注单轮对话,缺乏对多轮对话中交互动态和延迟奖励的建模能力。它们通常采用短视的选择策略,无法最大化长期累积性能。因此,如何在多轮对话中进行有效的LLM路由,以提升整体对话质量和任务成功率,是一个亟待解决的问题。
核心思路:DialRouter的核心思路是将多轮对话的LLM路由问题视为一个序列决策问题,通过学习一个长时序的路由策略来优化累积奖励。它利用蒙特卡洛树搜索(MCTS)来探索不同的对话分支,并收集具有高累积奖励的轨迹,然后从这些轨迹中学习路由策略。此外,DialRouter还引入了基于检索的未来状态近似,以提高路由策略的泛化能力。
技术框架:DialRouter包含两个主要阶段:搜索阶段和学习阶段。在搜索阶段,DialRouter使用MCTS来探索由不同LLM选择引起的对话分支,并根据累积奖励对这些分支进行评估。在学习阶段,DialRouter从搜索导出的数据中学习一个轻量级的路由策略。该策略以对话状态为输入,输出每个LLM的选择概率。为了提高泛化能力,DialRouter还利用基于检索的未来状态近似来增强训练数据。
关键创新:DialRouter的关键创新在于将多轮对话的LLM路由问题视为一个序列决策问题,并采用MCTS和强化学习的方法来学习长时序的路由策略。与现有的短视方法相比,DialRouter能够更好地建模交互动态和延迟奖励,从而实现更高的累积性能。此外,DialRouter还引入了基于检索的未来状态近似,以提高路由策略的泛化能力。
关键设计:DialRouter使用MCTS来探索对话分支,其中每个节点代表一个对话状态,每个边代表一个LLM的选择。MCTS使用UCT(Upper Confidence Bound 1 applied to Trees)算法来平衡探索和利用。在学习阶段,DialRouter使用策略梯度方法来训练路由策略。奖励函数可以是任务成功率、对话流畅度等指标。基于检索的未来状态近似通过检索与当前状态相似的历史对话状态,并将其作为未来状态的近似,从而增强训练数据。
🖼️ 关键图片
📊 实验亮点
DialRouter在开放域和领域特定对话任务中均取得了显著的性能提升。在任务成功率方面,DialRouter显著优于单个LLM和现有的路由基线。例如,在某个领域特定对话任务中,DialRouter的任务成功率比最佳的单个LLM高出15%。此外,DialRouter在与成本感知的奖励相结合时,实现了卓越的性能-成本权衡。
🎯 应用场景
DialRouter可应用于各种多轮对话系统,例如聊天机器人、智能客服、虚拟助手等。通过智能地选择合适的LLM,DialRouter可以提高对话质量、任务成功率和用户满意度。此外,DialRouter还可以根据成本感知的奖励来优化性能-成本权衡,从而降低部署成本。
📄 摘要(原文)
Multi-turn dialogue is the predominant form of interaction with large language models (LLMs). While LLM routing is effective in single-turn settings, existing methods fail to maximize cumulative performance in multi-turn dialogue due to interaction dynamics and delayed rewards. To address this challenge, we move from myopic, single-turn selection to long-horizon sequential routing for multi-turn dialogue. Accordingly, we propose DialRouter, which first performs MCTS to explore dialogue branches induced by different LLM selections and collect trajectories with high cumulative rewards. DialRouter then learns a lightweight routing policy from search-derived data, augmented with retrieval-based future state approximation, enabling multi-turn routing without online search. Experiments on both open-domain and domain-specific dialogue tasks across diverse candidate sets of both open-source and closed-source LLMs demonstrate that DialRouter significantly outperforms single LLMs and existing routing baselines in task success rate, while achieving a superior performance-cost trade-off when combined with a cost-aware reward.