喜讯!ARClab团队论文被IEEE TPDS录用

浙江大学计算机系统结构实验室(ZJU ARClab)和蚂蚁集团合作的成果 “Beehive: Decentralised High-frequency Small Tasks Scheduling in Large Clusters ”20254月份被‌IEEE Transactions on Parallel and Distributed Systems(IEEE TPDS)录用。该论文由陈文智教授指导,提出了一种名为Beehive的新型轻量级去中心化调度框架,有效缓解了现有调度框架在高频、短任务场景下的性能瓶颈。

期刊介绍

IEEE Transactions on Parallel and Distributed Systems(简称IEEE TPDS”)是计算机高性能计算领域的顶级期刊,同时也是中国计算机学会CCF)推荐A类国际期刊,为中国科学院/JCR一区期刊。该期刊主要关注并行和分布式计算算法、计算应用和性能分析等领域的最新研究进展,具有广泛的国际影响力。 

论文介绍

数据中心集群规模的持续扩大以及高频、短生命周期任务提交量的激增,给任务调度系统带来了严峻的性能挑战。现有的中心化和分布式调度架构,在处理大规模集群和高并发任务请求时,常常面临调度器计算过载、集群状态维护开销大以及调度冲突频发等问题,导致性能瓶颈、任务排队和资源利用率下降。特别是在处理大量短任务时,这些问题尤为突出。

为解决上述挑战,该论文提出了一种名为Beehive的新型轻量级去中心化调度框架。Beehive的核心思想是让集群中的每个节点都具备任务调度能力,主要负责处理其本地邻域内的任务,从而大幅降低资源管理开销和调度冲突。同时,所有节点通过构建的小世界网络拓扑互连,即使任务无法在本地或邻近节点处理,也能通过高效的全局路由机制在整个集群范围内快速找到合适的资源,实现了隐式的全局状态感知。这种设计使得Beehive能够有效扩展,支持超过10000个节点和高达每秒80000次的任务提交,而不会产生单点调度瓶颈。

实验证明,Beehive显著降低了调度延迟,99%的任务可在100毫秒内完成调度,并且调度吞吐量能随节点数量线性增长,有效缓解了现有调度框架在高频、短任务场景下的性能瓶颈。

作者介绍

论文第一作者程雨夏是浙江大学计算机系统结构实验室博士毕业生,现任职于杭州电子科技大学计算机学院,主要研究方向:高性能并行计算、计算机系统结构与深度强化学习,系统安全和基于云计算的智能化应用等;俞安彤是浙江大学计算机系统结构实验室的在读硕士,主要研究方向是分布式调度系统。


<<< 返回