浙江大学计算机系统结构实验室(ZJU ARClab)蒋骁翀的论文《Spillway: Orchestrating DPU and Host into a Unified vSwitching Fabric》被国际顶级会议 ACM SIGCOMM 2026 正式录用。该论文在陈文智教授和魏成坤老师指导下完成,对现代云数据中心 DPU(Data Processing Unit)虚拟交换架构面临的扩展性瓶颈,提出了一种统一化 vSwitching 架构 Spillway,将 DPU 与主机资源协同编排为弹性虚拟交换矩阵,在保障租户隔离的前提下实现了网络处理能力的大幅提升。
会议介绍

ACM SIGCOMM 是计算机网络与通信领域的顶级国际学术会议,被中国计算机学会评定为 CCF-A 类会议。自 1970 年代创办以来,SIGCOMM 一直是全球网络系统设计、数据中心架构、云计算基础设施等方向最新突破的最权威发表平台。该会议每年仅录用数十篇论文,录用率常年低于 20%,要求研究在理论创新、系统实现以及实际部署验证上均具备卓越的引领性。
研究背景
在现代云数据中心中,DPU 已成为卸载虚拟交换和基础设施功能的标准方案。通过将数据包处理从主机CPU卸载到专用硬件,DPU 显著降低了主机开销、提升了性能隔离度。然而,DPU 的固定硬件资源(如会话表容量、流表规模、数据包处理带宽)正逐渐成为新的瓶颈:主机计算密度随硬件代际高速增长,而 DPU 资源受限于较长设计周期与固定硬件预算,两者的性能差距持续扩大。与此同时,AI 训练/推理、Agent等新兴工作负载带来了高度动态的流量模式(短期突发、连接风暴、瞬时扇入/扇出),导致 DPU 数据平面在主机计算资源远未耗尽时便已饱和,大量主机算力沦为无法变现的闲置资源。现有方案或依赖硬件超配、集群级调度或退化至纯软件交换,均无法在单服务器内实现弹性、细粒度的 vSwitch 扩展。
方案设计
Spillway 提出了一种 DPU–主机混合数据平面架构,将 DPU 硬件与主机空闲 CPU 资源统一编排为弹性虚拟交换矩阵,核心创新包括以下四个方面。

第一,统一化 vSwitching 架构 (Unified vSwitching Fabric)。Spillway 打破 DPU 与主机之间的刚性资源边界,在单服务器内构建异构数据平面。DPU 作为主数据平面引擎,保留对硬件友好流量的高速处理;主机弹性 VM 作为溢出后端,仅在 DPU 接近饱和时被动态激活,将原本不可变现的空闲 CPU 核心转化为网络处理能力。
第二,统一资源调度器 (Unified Resource Scheduler, URSched)。URSched 负责异构计算域间的负载分配、状态同步与资源管理。它实时监测 DPU SoC 的饱和水位与主机碎片资源的可用性,按需创建预热的弹性 VM 实例,在流量激增消退后迅速回收资源,实现网络容量的弹性伸缩而无稳态开销。
第三,流量感知的溢出控制 (Traffic-Aware Spillover)。Spillway 设计了一种基于 Sketch 的流量导向机制:利用 Frequent Directions 算法增量维护流量主成分子空间,通过重建残差得分识别适合硬件加速的稳定流量,将其安装至 DPU 快速路径;而突发性、复杂性高的流量则被重定向至主机处理。这种 Top-K 策略在有限的 DPU 硬件资源下最大化系统整体效率。
第四,硬件资源优化与性能隔离。Spillway 引入虚拟地址转换缓存 (vATC) 机制,将地址翻译能力从硬件IOMMU 上移至 Spillway 用户空间,消除了一次 PCIe 往返传输,使转发性能接近基线水平;同时通过共享内核状态设计,将弹性 VM 冷启动内存开销降至 50MB 以下。在性能隔离方面,Spillway 通过硬资源边界约束PCIe 带宽、CPU 时间片与共享缓存占用,确保溢出处理不会对同驻租户产生嘈杂邻居效应。
实验结论
Spillway 已在阿里云生产环境中大规模部署超过 1.5 年,覆盖 3000 余台物理服务器、支持超过 20 万vCPU 的工作负载。实验结果表明,在高并发连接风暴场景下,Spillway 通过动态调度空闲主机核心处理溢出流量,单节点连接处理能力 (CPS) 提升高达 90%,系统吞吐量在流量激增时无损匹配注入负载。在延迟方面,溢出路径相比纯 DPU 路径仅增加约 10 微秒延迟(基线平均 18μs,溢出路径平均 28μs),仍远在 SLA 允许范围内。在应用级测试中,Nginx 短连接吞吐提升约 25%,长连接与 Redis 性能与基线持平。更关键的是,Spillway 使集群的可变现 vCPU 容量从约 12 万提升至约 18 万,集群资源变现率提升 50%,每投入 1 单位计算资源即可回收约 3 单位高价值变现容量,展现出显著的经济效益。
作者介绍
论文第一作者蒋骁翀为浙江大学计算机系统结构实验室在读博士生,主要研究方向是云数据中心网络,大模型安全推理。