From Myopic Selection to Long-Horizon Awareness: Sequential LLM Routing for Multi-Turn Dialogue

作者: Jiarui Zhang, Xiangyu Liu, Yong Hu, Chaoyue Niu, Hang Zeng, Shaojie Tang, Fan Wu, Guihai Chen

分类: cs.CL

发布日期: 2026-04-14

💡 一句话要点

DialRouter：面向多轮对话的序列LLM路由方法，提升长时交互性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 LLM路由 序列决策 蒙特卡洛树搜索 强化学习

📋 核心要点

现有LLM路由方法在多轮对话中表现不佳，无法充分利用交互动态和延迟奖励。
DialRouter通过MCTS探索对话分支，学习长时序路由策略，优化累积奖励。
实验表明，DialRouter在任务成功率和性能-成本权衡方面显著优于现有方法。

📝 摘要（中文）

多轮对话是与大型语言模型（LLMs）交互的主要形式。虽然LLM路由在单轮设置中有效，但由于交互动态和延迟奖励，现有方法无法在多轮对话中最大化累积性能。为了解决这个挑战，我们从短视的单轮选择转向多轮对话的长时序序列路由。因此，我们提出了DialRouter，它首先执行蒙特卡洛树搜索（MCTS）来探索由不同LLM选择引起的对话分支，并收集具有高累积奖励的轨迹。然后，DialRouter从搜索导出的数据中学习轻量级的路由策略，并结合基于检索的未来状态近似，从而实现无需在线搜索的多轮路由。在开放域和领域特定对话任务中，对开源和闭源LLM的各种候选集进行的实验表明，DialRouter在任务成功率方面显著优于单个LLM和现有的路由基线，并且在与成本感知的奖励相结合时，实现了卓越的性能-成本权衡。

🔬 方法详解

问题定义：现有LLM路由方法主要关注单轮对话，缺乏对多轮对话中交互动态和延迟奖励的建模能力。它们通常采用短视的选择策略，无法最大化长期累积性能。因此，如何在多轮对话中进行有效的LLM路由，以提升整体对话质量和任务成功率，是一个亟待解决的问题。

核心思路：DialRouter的核心思路是将多轮对话的LLM路由问题视为一个序列决策问题，通过学习一个长时序的路由策略来优化累积奖励。它利用蒙特卡洛树搜索（MCTS）来探索不同的对话分支，并收集具有高累积奖励的轨迹，然后从这些轨迹中学习路由策略。此外，DialRouter还引入了基于检索的未来状态近似，以提高路由策略的泛化能力。

技术框架：DialRouter包含两个主要阶段：搜索阶段和学习阶段。在搜索阶段，DialRouter使用MCTS来探索由不同LLM选择引起的对话分支，并根据累积奖励对这些分支进行评估。在学习阶段，DialRouter从搜索导出的数据中学习一个轻量级的路由策略。该策略以对话状态为输入，输出每个LLM的选择概率。为了提高泛化能力，DialRouter还利用基于检索的未来状态近似来增强训练数据。

关键创新：DialRouter的关键创新在于将多轮对话的LLM路由问题视为一个序列决策问题，并采用MCTS和强化学习的方法来学习长时序的路由策略。与现有的短视方法相比，DialRouter能够更好地建模交互动态和延迟奖励，从而实现更高的累积性能。此外，DialRouter还引入了基于检索的未来状态近似，以提高路由策略的泛化能力。

关键设计：DialRouter使用MCTS来探索对话分支，其中每个节点代表一个对话状态，每个边代表一个LLM的选择。MCTS使用UCT（Upper Confidence Bound 1 applied to Trees）算法来平衡探索和利用。在学习阶段，DialRouter使用策略梯度方法来训练路由策略。奖励函数可以是任务成功率、对话流畅度等指标。基于检索的未来状态近似通过检索与当前状态相似的历史对话状态，并将其作为未来状态的近似，从而增强训练数据。

🖼️ 关键图片

📊 实验亮点

DialRouter在开放域和领域特定对话任务中均取得了显著的性能提升。在任务成功率方面，DialRouter显著优于单个LLM和现有的路由基线。例如，在某个领域特定对话任务中，DialRouter的任务成功率比最佳的单个LLM高出15%。此外，DialRouter在与成本感知的奖励相结合时，实现了卓越的性能-成本权衡。

🎯 应用场景

DialRouter可应用于各种多轮对话系统，例如聊天机器人、智能客服、虚拟助手等。通过智能地选择合适的LLM，DialRouter可以提高对话质量、任务成功率和用户满意度。此外，DialRouter还可以根据成本感知的奖励来优化性能-成本权衡，从而降低部署成本。

📄 摘要（原文）

Multi-turn dialogue is the predominant form of interaction with large language models (LLMs). While LLM routing is effective in single-turn settings, existing methods fail to maximize cumulative performance in multi-turn dialogue due to interaction dynamics and delayed rewards. To address this challenge, we move from myopic, single-turn selection to long-horizon sequential routing for multi-turn dialogue. Accordingly, we propose DialRouter, which first performs MCTS to explore dialogue branches induced by different LLM selections and collect trajectories with high cumulative rewards. DialRouter then learns a lightweight routing policy from search-derived data, augmented with retrieval-based future state approximation, enabling multi-turn routing without online search. Experiments on both open-domain and domain-specific dialogue tasks across diverse candidate sets of both open-source and closed-source LLMs demonstrate that DialRouter significantly outperforms single LLMs and existing routing baselines in task success rate, while achieving a superior performance-cost trade-off when combined with a cost-aware reward.

From Myopic Selection to Long-Horizon Awareness: Sequential LLM Routing for Multi-Turn Dialogue

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理