首页 >> 要闻 >

为机器学习启用更公平的数据集群

2020-11-29 08:35:44 来源：用户：

CSE研究人员最近发表的研究可以使训练机器学习(ML)模型更公平，更快速。Mosharaf Chowdhury教授和美国石溪大学的一个团队通过使用一种名为AlloX的工具，开发了一种新的方式来公平地调度数据中心中的大量ML作业，这些数据中心使用多种不同类型的计算硬件，例如CPU，GPU和专用加速器。随着这些所谓的异构集群逐渐成为常态，像AlloX这样的公平调度系统将成为其高效运营所必需的。

该项目是Chowdhury实验室的新步骤，该实验室最近发布了许多工具，旨在加快ML模型的训练和测试过程。他们过去的项目Tiresias和Salus加速了多种规模的GPU资源共享：既在单个GPU(Salus)内，又在群集中的多个GPU(Tiresias)之间。

但是，AlloX解决了异构集群，该集群带来了一个新问题：不同的硬件最适合不同类型的计算任务。尽管期望与数据集群的工作总是有差异，但是对于给定的工作，哪种硬件最合适也有所不同。

多种不同类型的硬件可能能够运行一个给定的模型，但是根据其计算特性，每个模型可以具有截然不同的速度。如果需要大量的顺序执行，那么GPU不太适合，但是如果它严重依赖矩阵乘法，则CPU不能很好地工作。随着新加速器的不断开发，不同的通用操作总是在寻找更好的选择来快速执行。

Chowdhury说：“每个工作负载都有其独特的特性，可以使独特的加速器发光。这就是为什么架构研究人员正在构建如此多的新加速器的原因。”

这种不匹配的硬件提出了数据集群公平性问题的新方面。在工作量持续不断的情况下，调度程序不仅必须寻找最佳的平均运行时间来保持中心运行，而且还必须寻找不会随意拖延某些工作以追求整体性能的计划。按照Chowdhury的说法，计算能力的分布可为不同的个人用户带来广泛不同的性能结果。

他说：“如果集群不公平，那么某些人将受到太多惩罚，他们的计算时间将任意增加。”

标签：机器学习

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！