您现在的位置是:首页 >要闻 > 2020-12-14 08:19:30 来源:
AI系统可最佳地在数千台服务器之间分配工作负载
麻省理工学院的研究人员开发的新型系统可以自动“学习”如何在数千台服务器上调度数据处理操作,而这通常是由不精确的人工设计算法完成的任务。这样做可以帮助当今耗电的数据中心更加高效地运行。
数据中心可以包含数以万计的服务器,这些服务器不断运行来自开发人员和用户的数据处理任务。群集调度算法可实时跨服务器分配传入的任务,以有效利用所有可用的计算资源并快速完成工作。
然而,传统上,人们会基于一些基本准则(“策略”)和各种折衷来微调那些调度算法。例如,他们可以对算法进行编码,以快速完成某些任务,或者在任务之间平均分配资源。但是工作负载(意味着组合任务的组)各种各样。因此,人类几乎不可能针对特定的工作负荷优化其调度算法,因此,他们常常无法发挥其真正的效率潜力。
麻省理工学院的研究人员将所有的手动编码卸载到了机器上。在SIGCOMM上发表的一篇论文中,他们描述了一种利用“强化学习”(RL)(一种反复试验的机器学习技术)来针对特定服务器集群中的特定工作负载量身定制调度决策的系统。
为此,他们构建了可以在复杂工作负载上进行训练的新颖RL技术。在培训中,系统尝试了多种可能的方式来跨服务器分配传入的工作负载,最终在利用计算资源和快速处理速度方面找到了最佳折衷方案。除了简单的说明(例如“最小化工作完成时间”)之外,不需要人工干预。
与最佳的手写调度算法相比,研究人员的系统完成工作的速度提高了约20%到30%,而在交通繁忙的时候完成速度则提高了两倍。但是,大多数情况下,系统会学习如何有效压缩工作负载而几乎没有浪费。结果表明,该系统可以使数据中心使用更少的资源,以更高的速度处理相同的工作负载。
“如果您有使用机器进行反复试验的方法,他们可以尝试以不同的方式安排作业,并自动找出哪种策略比其他方法更好,”博士学位的洪子茂说。电气工程与计算机科学系(EECS)的学生。“这可以自动提高系统性能。利用率的任何小幅提高,即使提高1%,也可以节省数百万美元,并为数据中心节省大量能源。”