面向数据中心大规模任务的智能调度系统项目

背景介绍

    数据中心大规模的任务调度问题是计算机分布式系统研究领域中的热点问题之一。面向新型大数据、人工智能、实时流处理等应用的数据中心业务具有计算任务种类多、并行依赖关系复杂、资源需求动态变化等特点,传统启发式调度算法难以自适应大规模复杂系统的发展变化,难以综合优化调度目标,导致系统资源碎片问题、热点机器问题、集群均衡问题等诸多挑战。

主要解决的问题:

    Pod细粒度弹性容量在线规划技术研究。为满足业务动态资源需求变化,需要实现Pod细粒度的弹性资源伸缩能力,在满足业务SLO的同时达到资源利用效率的最大化。

集群热点消除重调度算法研究。为满足集群节点资源均衡利用,消除热点机器,保证业务稳定运行,需要实现Pod动态重调度,在满足复杂约束条件下进行Pod在线迁移,达到集群资源利用率均衡。

主要研究内容:

    Antpilot弹性容量在线规划技术研究;基于CP-SAT重调度规划模型研究;基于业务资源画像的重调度算法研究;大规模trace数据调度模拟器设计实现。


<<< 返回