Towards Generalization-Oriented Models for Vehicle Routing Problems with Mixture-of-Experts
作者: Changhao Miao, Yuntian Zhang, Tongyu Wu, Fang Deng, Chen Chen
分类: cs.LG, cs.AI
发布日期: 2026-05-26
💡 一句话要点
提出R2E-IG模型,通过混合专家网络提升车辆路径问题在分布偏移下的泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 车辆路径问题 深度强化学习 泛化能力 混合专家网络 分布偏移
📋 核心要点
- 现有基于深度强化学习的车辆路径问题解决方法在均匀分布数据上训练,泛化能力不足,难以应对真实世界的分布偏移。
- 论文提出R2E-IG模型,通过残差精炼专家网络和实例级门控机制,自适应地组合模块形成策略,提升泛化能力。
- 实验表明,R2E-IG在同分布和异分布数据集上均表现出色,且能方便地集成到现有DRL方法中进一步提升性能。
📝 摘要(中文)
近年来,深度强化学习(DRL)在车辆路径问题(VRP)上取得了显著进展。然而,现有的基于DRL的方法通常在从均匀分布生成的实例上进行训练,这限制了它们在真实世界分布偏移下的性能。本文旨在开发一种面向泛化的模型,该模型将策略网络划分为多个模块,并在推理过程中自适应地重组模块以形成特定的策略。具体来说,我们提出了具有实例级门控的残差精炼专家(R2E-IG)来提高跨分布泛化能力。我们的贡献有三方面:(1) 我们引入了一种残差精炼专家(R2E)架构,通过残差精炼增强专家表达能力;(2) 我们设计了一种实例级门控机制,该机制学习分布感知的实例表示,并将输入路由到合适的模块;(3) 我们提出了一种配备动态权重自适应(DWA)的混合分布训练机制,该机制动态地重新加权来自不同分布的训练数据,以强调信息量更大的数据。大量的实验表明,R2E-IG在合成数据集和基准数据集上的同分布和异分布实例上都取得了与最先进的基线方法相比具有竞争力的性能。此外,R2E-IG是通用的,可以很容易地集成到现有的基于DRL的方法中,以进一步提高性能。
🔬 方法详解
问题定义:车辆路径问题(VRP)旨在优化车辆为多个客户提供服务的路线,目标是最小化总成本(如行驶距离)。现有基于深度强化学习的VRP解决方法,通常假设训练数据和测试数据服从相同的分布。然而,在实际应用中,数据分布往往会发生变化,导致模型性能显著下降。因此,如何提升VRP模型在分布偏移下的泛化能力是一个重要的挑战。
核心思路:论文的核心思路是将策略网络分解为多个专家模块,每个模块擅长处理特定类型的VRP实例。通过实例级门控机制,模型可以根据输入实例的特征,动态地选择合适的专家模块组合,从而适应不同的数据分布。这种“分而治之”的策略,使得模型能够更好地泛化到未见过的分布。
技术框架:R2E-IG模型的整体框架包括三个主要组成部分:残差精炼专家(R2E)模块、实例级门控机制和混合分布训练机制。R2E模块负责学习不同类型的VRP策略,实例级门控机制负责将输入实例路由到合适的R2E模块,混合分布训练机制则负责优化模型的训练过程。在推理阶段,模型首先通过实例级门控机制选择合适的R2E模块组合,然后利用这些模块生成最终的VRP解决方案。
关键创新:R2E-IG模型的主要创新点在于以下三个方面:(1) 提出了残差精炼专家(R2E)架构,通过残差连接增强了专家模块的表达能力;(2) 设计了实例级门控机制,能够根据输入实例的特征,自适应地选择合适的专家模块组合;(3) 提出了混合分布训练机制,通过动态权重调整,使得模型能够更好地学习不同分布的数据。与现有方法相比,R2E-IG模型能够更好地应对分布偏移问题,具有更强的泛化能力。
关键设计:R2E模块采用残差连接,使得模型能够更好地学习复杂的VRP策略。实例级门控机制使用GNN学习实例表示,并使用softmax函数计算每个专家模块的权重。混合分布训练机制使用动态权重自适应(DWA)算法,根据每个分布的训练损失动态调整权重。损失函数通常是路径长度或成本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,R2E-IG模型在多个VRP数据集上取得了显著的性能提升。例如,在CVRP数据集上,R2E-IG模型在异分布测试集上的性能优于现有方法,平均提升幅度超过5%。此外,R2E-IG模型能够方便地集成到现有DRL方法中,进一步提升性能。
🎯 应用场景
该研究成果可广泛应用于物流配送、交通运输、供应链管理等领域。通过提升车辆路径问题模型的泛化能力,可以有效降低运输成本,提高服务效率,并更好地应对实际应用中复杂多变的场景。未来,该方法有望进一步推广到其他组合优化问题,为智能决策提供更强大的支持。
📄 摘要(原文)
In recent years, Deep Reinforcement Learning (DRL) has achieved substantial progress on Vehicle Routing Problems (VRPs). However, existing DRL-based methods are typically trained on instances generated from a uniform distribution, which limits their performance under real-world distribution shifts. In this paper, we aim to develop a generalization-oriented model that partitions the policy network into multiple modules and adaptively recombines modules to form specific policies during inference. Specifically, we propose Residual Refined Experts with Instance-level Gating (R2E-IG) to improve cross-distribution generalization. Our contributions are threefold: (1) We introduce a Residual Refined Expert (R2E) architecture that enhance expert expressiveness via residual refinement; (2) We design an instance-level gating mechanism that learns distribution-aware instance representations and routes inputs to suitable modules; (3) We propose a mixed-distribution training mechanism equipped with Dynamic Weight Adaption (DWA), which dynamically reweights training data from different distributions to emphasize more informative ones. Extensive experiments show that R2E-IG achieves competitive performance against state-of-the-art baselines on both in-distribution and out-of-distribution instances across synthetic and benchmark datasets. Moreover, R2E-IG is generic and can be easily integrated into existing DRL-based methods to further improve performance.