浙江大学计算机系统结构实验室(ZJU ARClab)魏成坤、杨晔、蒋骁翀、徐天宇的论文“Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks”于2023年5月被计算机通信网络领域的旗舰会议Special Interest Group on Data Communication(SIGCOMM)录用。该论文由陈文智教授指导,ARClab科研团队与阿里云联合研究网络虚拟化平台 Achelous。
会议介绍
SIGCOMM是由ACM举办的计算机体系结构/计算机数据通信领域最重要的学术会议之一,与NSDI, MOBICOM, INFOCOMM并称为计算机网络领域的“四大顶会”。 SIGCOMM对论文质量和数量要求极高,质量方面要求具有基础性贡献、领导性影响和坚实系统背景;数量方面今年共接受323篇投稿,共录取71篇,录取率约20%。
超大规模云网络部署面临的挑战
随着云网络的规模和流量不断增长,超大规模虚拟化网络面临以下三个挑战:1)超大规模云网络可编程能力:云网络运营商需要在短时间内管理千万级的云网络,提高网络收敛速度;2)高负载云网络下的弹性机制:在网络处于高负载状态时,需要云网络实现无缝的性能扩展;3)云网络的稳定与可靠性:超大规模云网络还需要高效的容错/风险规避机制以保障服务的稳定性。由于上述挑战,现在极少有云厂商能够实现超大规模的网络部署。
Achelous:超大规模云网络部署方案
Achelous网络虚拟化平台由三个关键设计组成,以实现超大规模VPC:(i)基于数据平面和控制平面协同设计的新型层次化编程架构;(ii)弹性性能策略和分布式ECMP方案,分别用于无缝垂直和水平扩展;(iii) 运行状况健康检查方案和透明的虚拟机实时迁移机制,可确保故障转移期间有状态的流连续性。
性能结果表明,Achelous 在单个 VPC 中可扩展到 1,500,000 个具有弹性网络容量的虚拟机。相比与传统部署方案,减少了 25× 的编程时间,使得99% 的更新可在 1 秒内完成。对于故障迁移,它在 VM 实时迁移期间缩短了 22.5× 的网络断连时间,并确保 99.99% 的应用程序不会遇到停滞。
作者介绍
论文作者魏成坤(博士)、杨晔(博士)、蒋骁翀(在读硕士)、徐天宇(在读硕士)为浙江大学计算机系统结构实验室(ZJU ARClab)成员,主要研究方向为云网络中的软硬件协同、下一代网络架构设计、网络数据安全等。