浙江大学计算机系统结构实验室(ZJU ARClab)一年级博士生袁新宇的论文《Divide, Harmonize, Then Conquer It: Shooting Multi-Commodity Flow Problems with Multimodal Language Models》于 2026 年 1 月被机器学习领域国际顶级会议IEEE International Conference on Learning Representations 2026(ICLR 2026)正式录用。该论文在陈文智教授和王总辉老师的指导下完成,旨在解决大规模(商品流)系统中的分配问题,提出了一种基于多模态大语言模型的高效求解方案,并在理论上深入探究了其作用机理。
会议介绍

国际学习表征会议(International Conference on Learning Representations,简称ICLR)是由图灵奖得主Yoshua Bengio和Yann LeCun于2013年创立的深度学习领域顶级学术会议。ICLR自创办后每年举办一次,是近年来发展最快的计算机会议,与NeurIPS和ICML并称为机器学习和人工智能领域三大顶级国际会议。
研究动机

假设我们需要将多种商品从各自的源头,通过一个共享的网络链路,高效、公平地送达各自的目的地:既要降低网络链路的使用压力,又要提升整体传输效率,同时确保不同商品之间资源分配的公平性。这类问题在学术上被称为“多商品流”(Multicommodity Flow, MCF)问题。这一问题的重要性不言而喻,其应用场景横跨交通运输、通信网络、现代物流、能源调度乃至云计算系统等多个关键领域。过去几十年,研究者主要依赖基于线性规划的优化算法来求解,这类方法理论上能提供接近最优的解决方案。然而,随着现代系统规模急剧膨胀(网络节点和链路动辄成千上万,需调度的商品流量高达数百万种且需求高度动态),传统算法的计算开销迅速成为性能瓶颈,难以满足实时或大规模部署的需求。

面对可扩展性这一核心瓶颈,我们提出了一种全新的解决思路。与传统“大而全”的整体优化方法不同,我们的核心理念是:通过将网络拓扑结构和商品流量需求进行划分,把庞大的多商品流问题拆解为多个更小、更易处理的子问题;再借助历史数据,利用深度神经网络对这些子问题进行并行求解。基于这一理念,我们推出了 Pram,一种融合多模态大语言模型的新型资源分配方案。具体而言,Pram 首先按照商品流的源节点对原始问题进行划分,将整个调度任务分解为若干子集。随后,每个子集由一个共享的“智能体”模型独立完成资源分配。为进一步提升协同效率,我们还设计了一种新颖的多智能体强化学习算法,用于微调该共享模型。该算法基于反事实策略梯度机制,并引入可训练的低秩矩阵与前缀上下文实现轻量级通信。这使得每个逻辑智能体不仅能自主决策,还能高效交换信息、评估自身对整体目标的贡献,从而在“分布式”环境中达成全局协调。Pram 不仅突破了传统优化方法在规模上的限制,也为大规模网络资源调度提供了一条兼顾效率、灵活性与智能协同的新路径。
理论分析

此外,通过一系列案例研究,我们进一步验证:由于MCF问题的目标函数通常具备良好的凸性或凹性结构,经过适当适配后,Pram 能够在内部隐式地模拟梯度下降过程,从而在理论上保证收敛至全局最优解。这意味着,PRAM 不仅在实践中表现出卓越的性能,在理论上也拥有坚实的优化基础——它并非一个“黑箱”式的启发式工具,而是一个兼具可解释性与最优性保障的智能调度框架。这一特性使其在面对复杂、动态的大规模网络环境时,既能保持高效响应,又不失数学上的严谨性。我们的评估覆盖多尺度网络、异构商品流量和多种优化目标。与现有方法(包括强化学习、线性规划和启发式算法)相比,PRAM 展现出三大优势:① 近乎最优:平均性能距理论最优解不足 8%,显著优于此前的 强化学习方法;② 极速调度:在大规模网络中,比求解线性规划快 10 至 100 倍;⑥ 强泛化能力:面对未知商品流量模式、动态变化甚至网络故障,依然保持稳健。
作者介绍
论文第一作者袁新宇为浙江大学计算机系统结构实验室2025级博士生,主要研究方向为机器学习,网络测量,网络管理和优化等。