Divide, Harmonize, Then Conquer It: Shooting Multi-Commodity Flow Problems with Multimodal Language Models
作者: Xinyu Yuan, Yan Qiao, Zonghui Wang, Wenzhi Chen
分类: cs.LG
发布日期: 2026-02-11
备注: Published as a conference paper at ICLR 2026
💡 一句话要点
Pram:利用多模态语言模型解决多商品流问题,实现优化与效率的平衡
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多商品流 多模态语言模型 强化学习 网络优化 资源分配 分布式优化 智能体 组合优化
📋 核心要点
- 现有优化引擎在处理大规模分配系统中的多商品流问题时,难以兼顾最优性和计算效率。
- Pram利用多模态语言模型将问题分解为局部子问题,并通过多智能体强化学习协调,实现快速高质量的分配。
- 实验表明,Pram在性能上可与线性规划求解器媲美,运行时间缩短1-2个数量级,并具有良好的鲁棒性。
📝 摘要(中文)
多商品流(MCF)问题是网络流和组合优化中的一个基本问题,在运输、通信和物流等领域有着广泛的应用。目前,分配系统的快速扩张对现有优化引擎在平衡最优性和易处理性方面提出了挑战。本文提出Pram,这是一种基于机器学习的方法,它利用多模态语言模型(MLM)的推理能力来解决这种权衡困境,这正是服务提供商的迫切需求。Pram通过以下方式实现目标:(i)通过将原始问题分解为局部子问题来快速计算高质量的分配方案,这些子问题由MLM驱动的“代理”解决;(ii)通过多智能体强化学习算法协调这些子问题,确保全局一致性。理论上,我们证明了Pram在多商品流问题族中可以收敛到最优解。在真实世界数据集和公共拓扑上的实验表明,Pram的性能与线性规划求解器相当,在某些情况下甚至超过了它们(非常接近最优解),并且运行时间大大缩短(快1到2个数量级)。此外,Pram表现出很强的鲁棒性(在链路故障或流量突发情况下,性能下降小于10%),证明了MLM对不可预见事件的泛化能力。Pram与目标无关,并且可以无缝地与主流分配系统集成,为未来的网络提供了一种实用且可扩展的解决方案。
🔬 方法详解
问题定义:论文旨在解决多商品流(MCF)问题,该问题在网络流和组合优化中至关重要,广泛应用于交通、通信和物流等领域。现有方法,特别是传统的优化引擎,在大规模分配系统中面临着最优性和计算效率之间的权衡难题。它们要么计算成本高昂,要么无法保证解的质量。
核心思路:Pram的核心思路是将复杂的多商品流问题分解为更小的、局部化的子问题,然后利用多模态语言模型(MLM)的推理能力来高效地解决这些子问题。通过多智能体强化学习框架,协调这些局部解,确保全局一致性。这种“分而治之”的策略旨在在保证解的质量的同时,显著降低计算复杂度。
技术框架:Pram的整体框架包含两个主要阶段:问题分解和解的协调。首先,原始的多商品流问题被分解为多个局部子问题,每个子问题由一个基于MLM的“代理”负责解决。这些代理通过观察局部网络状态,利用MLM的推理能力生成局部流量分配方案。然后,一个多智能体强化学习算法被用来协调这些局部解,确保全局流量的一致性和优化目标。该框架允许并行处理子问题,从而显著加速求解过程。
关键创新:Pram的关键创新在于将多模态语言模型(MLM)引入到多商品流问题的求解过程中。传统的优化方法通常依赖于数学规划或启发式算法,而Pram利用MLM的强大推理能力,学习从网络状态到流量分配的映射。这种基于学习的方法可以更好地适应复杂和动态的网络环境,并具有更强的泛化能力。此外,Pram采用多智能体强化学习框架来协调局部解,确保全局一致性,这是一种新颖的解决分布式优化问题的方法。
关键设计:Pram的关键设计包括以下几个方面:(1) MLM代理的设计:选择合适的MLM模型,并设计有效的输入表示,将网络状态信息编码为MLM可以理解的形式。(2) 强化学习算法的设计:选择合适的强化学习算法(例如,多智能体Actor-Critic),并设计合适的奖励函数,鼓励代理生成全局最优的流量分配方案。(3) 子问题分解策略:设计有效的子问题分解策略,确保每个子问题都具有一定的独立性,同时又能通过协调机制保证全局一致性。(4) 损失函数:Pram学习执行上下文中的梯度下降,损失函数的设计需要保证收敛到多商品流问题的最优解。
🖼️ 关键图片
📊 实验亮点
Pram在真实世界数据集和公共拓扑上的实验结果表明,其性能可与线性规划求解器相媲美,在某些情况下甚至超过了它们(非常接近最优解),并且运行时间大大缩短(快1到2个数量级)。此外,Pram在链路故障或流量突发情况下表现出很强的鲁棒性,性能下降小于10%,证明了MLM对不可预见事件的泛化能力。
🎯 应用场景
Pram具有广泛的应用前景,可应用于交通运输网络优化、通信网络资源分配、物流供应链管理等领域。它能够提高资源利用率,降低运营成本,并提升系统的鲁棒性和可扩展性。Pram的无目标性使其能够无缝集成到主流分配系统中,为未来网络提供了一种实用且可扩展的解决方案。
📄 摘要(原文)
The multi-commodity flow (MCF) problem is a fundamental topic in network flow and combinatorial optimization, with broad applications in transportation, communication, and logistics, etc. Nowadays, the rapid expansion of allocation systems has posed challenges for existing optimization engines in balancing optimality and tractability. In this paper, we present Pram, the first ML-based method that leverages the reasoning power of multimodal language models (MLMs) for addressing the trade-off dilemma -- a great need of service providers. As part of our proposal, Pram (i) quickly computes high-quality allocations by dividing the original problem into local subproblems, which are then resolved by an MLM-powered "agent", and (ii) ensures global consistency by harmonizing these subproblems via a multi-agent reinforcement learning algorithm. Theoretically, we show that Pram, which learns to perform gradient descent in context, provably converges to the optimum within the family of MCF problems. Empirically, on real-world datasets and public topologies, Pram achieves performance comparable to, and in some cases even surpassing, linear programming solvers (very close to the optimal solution), and substantially lower runtimes (1 to 2 orders of magnitude faster). Moreover, Pram exhibits strong robustness (<10\% performance degradation under link failures or flow bursts), demonstrating MLM's generalization ability to unforeseen events. Pram is objective-agnostic and seamlessly integrates with mainstream allocation systems, providing a practical and scalable solution for future networks.