陈文智教授团队论文连续两年被计算机体系结构领域顶级会议录用

近日,浙江大学计算机系统结构实验室(ARClab与阿里云、蚂蚁集团在云计算存储领域合作的最新成果 LightPool: A NVMe-oF-based High-performance and Lightweight Storage Pool Architecture for Cloud-Native Distributed Database”被计算机体系结构领域顶级会议HPCA 2024录用,这是团队相关研究成果连续两年被HPCA录用,论文第一作者是ARClab在读博士生徐杰雄,同时也是阿里云实习工程师。该论文由陈文智教授指导,提出了一种高性能的云原生存储池化架构,为云原生分布式数据库和许多云原生负载提供了高性能高可用的存储服务,极大提升了现有云原生集群的存储资源利用率,是云计算存储架构研究的一个重要突破。


会议介绍

High Performance Computer ArchitectureHPCA)是由IEEE举办的计算机体系结构/高性能计算领域最重要的学术会议之一,与ASPLOS, ISCA, MICRO并称为计算机体系结构领域的“四大顶会”,中国大陆平均每年的接受数量小于10篇。


云原生分布式数据库集群面临的存储挑战


云原生分布式数据库现已在云数据中心大规模部署,能够为云应用程序提供高性能且高可用的数据库服务。云原生分布式数据库通常由多个运行在不同机器上的数据库实例提供服务,这些实例以容器的形式部署。云原生分布式数据库需要使用高性能、大容量的存储系统。此外,云原生分布式数据库为了保证服务的高性能和高可用,同时运行了多个数据库实例副本,导致了需要在存储系统中保存多个数据副本。

现有的云原生分布式数据库可以采用本地存储或者基于存算分离架构的存储系统。本地存储由于CPU/Memory/Storage资源不平衡的问题面临着资源利用率低的问题。以使用本地存储的蚂蚁集团OceanBase数据库集群为例,集群中数百PB容量的存储资源利用率仅在40%左右,造成了巨大的资源浪费和TCO开销。另一方面,基于存算分离架构的存储系统面临着性能瓶颈,高成本,和数据冗余存储的问题。


已大规模部署的云原生存储池化架构


LightPool 是一种面向云原生分布式数据库的新型高性能存储池化架构。 LightPool 将集群的本地存储资源聚合成池,采用 NVMe-over-Fabrics 协议进行跨节点存储访问,通过Kubernetes进行统一的存储资源的调度和分配,将集群的存储资源利用率从40%提升到约65%。除此之外,我们针对 LightPool 的本地访问通路进行优化,采用更高效的交互协议将I/O请求下发到存储设备并消除了I/O通路中冗余的两次数据拷贝,实现了接近裸盘的存储性能。LightPool分配的本地存储资源相比裸盘只带来约 2.1~3.5 μs 的额外延迟开销,远程存储资源相比裸盘仅引入55.2 ~ 67.3 µs 的额外延迟。与现有的融入Kubernetes管控的云原生存储方案 OpenEBS 相比,LightPool 实现了带宽最大提升 190.9%,同时在生产环境应用中吞吐量最大提升了 6.9%


团队介绍


浙江大学计算机系统结构实验室(ZJU ARCLab)创立于1990年,由陈文智教授领衔以操作系统为核心竞争力,向下深入到体系结构,向上提升到分布式软件,横向扩展到信息安全。主要研究方向包括计算机体系结构、虚拟化与云平台、嵌入式系统、智能计算、大数据和信息安全等。在过去的一年里,团队先后在HPCANDSSCCSSIGCOMMS&PCHES等顶级会议或顶级期刊发表7篇高水平学术论文,覆盖了体系结构、网络与分布式系统、网络与信息安全等领域。ARClab始终欢迎优秀老师、同学的加入,期待与你们携手共创美好未来!更多消息,请访问实验室网站:http://arc.zju.edu.cn


作者介绍


论文第一作者徐杰雄是浙江大学计算机系统结构实验室(ZJU ARClab)在读博士研究生,阿里云实习工程师,主要研究方向为云计算中的软硬件协同、下一代智能系统架构、高性能存储。


<<< 返回