您现在的位置是:首页 >人工智能 > 2022-08-25 17:08:22 来源:

超级计算中心数据集旨在加速人工智能研究以优化高性能计算系统

导读 当麻省理工学院林肯实验室超级计算中心 (LLSC) 在 2019 年推出其 TX-GAIA 超级计算机时,它为麻省理工学院社区提供了一个强大的新资

当麻省理工学院林肯实验室超级计算中心 (LLSC) 在 2019 年推出其 TX-GAIA 超级计算机时,它为麻省理工学院社区提供了一个强大的新资源,可以将人工智能应用于他们的研究。麻省理工学院的任何人都可以向该系统提交工作,该系统每秒进行数万亿次操作,以训练用于各种应用的模型,例如在医学图像中发现肿瘤、发现新药或模拟气候效应。但这种强大的力量带来了以可持续方式管理和运营它的重大责任——团队正在寻找改进的方法。

“我们拥有这些强大的计算工具,可以让研究人员建立复杂的模型来解决问题,但它们本质上可以用作黑匣子。在那里迷失的是我们是否真的尽可能有效地使用硬件,”Siddharth Samsi 说,LLSC 的研究科学家。

为了深入了解这一挑战,LLSC 在过去一年中一直在收集有关 TX-GAIA 使用情况的详细数据。在超过一百万个用户工作之后,该团队已将数据集开源发布给计算社区。

他们的目标是使计算机科学家和数据中心运营商能够更好地了解数据中心优化的途径——随着处理需求的不断增长,这是一项重要的任务。他们还看到了在数据中心本身利用人工智能的潜力,通过使用数据开发模型来预测故障点、优化作业调度和提高能源效率。虽然云提供商正在积极优化他们的数据中心,但他们通常不会将他们的数据或模型提供给更广泛的高性能计算 (HPC) 社区来利用。该数据集和相关代码的发布旨在填补这一空间。

LLSC 的高级研究员 Vijay Gadepally 表示:“数据中心正在发生变化。我们的硬件平台呈爆炸式增长,工作负载的类型在不断发展,使用数据中心的人员类型也在发生变化。” “到目前为止,还没有一种很好的方法来分析对数据中心的影响。我们认为这项研究和数据集是朝着提出一种有原则的方法来理解这些变量如何相互作用然后应用人工智能迈出的一大步以获得见解和改进。”

描述数据集和潜在应用的论文已被许多场所接受,包括 IEEE 高性能计算机体系结构国际研讨会、IEEE 国际并行和分布式处理研讨会、计算协会北美分会年会语言学、IEEE 高性能和嵌入式计算会议以及高性能计算、网络、存储和分析国际会议。

在全球 TOP500 超级计算机中,TX-GAIA 结合了传统计算硬件(中央处理器或 CPU)与近 900 个图形处理单元(GPU)加速器。这些 NVIDIA GPU 专门用于深度学习,这是一种引发语音识别和计算机视觉的 AI。

数据集按作业涵盖 CPU、GPU 和内存使用情况;调度日志;和物理监测数据。与谷歌和微软等类似的数据集相比,LLSC 数据集提供了“标记数据、各种已知的 AI 工作负载以及与以前的数据集相比更详细的时间序列数据。据我们所知,它是最全面和最全面的数据集之一。可用的细粒度数据集,”Gadepally 说。

值得注意的是,该团队以前所未有的详细程度收集了时间序列数据:每个 GPU 上的时间间隔为 100 毫秒,每个 CPU 上的时间间隔为 10 秒,因为机器处理了 3,000 多个已知的深度学习作业。首要目标之一是使用这个标记的数据集来描述不同类型的深度学习作业在系统上的工作负载。例如,此过程将提取特征,这些特征揭示了硬件处理自然语言模型与图像分类或材料设计模型的差异。

该团队现在发起了麻省理工学院数据中心挑战赛来推动这项研究。该挑战邀请研究人员使用 AI 技术以 95% 的准确率识别正在运行的工作类型,使用他们标记的时间序列数据作为基本事实。

这种洞察力可以使数据中心更好地匹配用户的工作请求和最适合它的硬件,从而潜在地节省能源并提高系统性能。对工作负载进行分类还可以让操作员快速注意到硬件故障、低效数据访问模式或未经授权的使用导致的差异。

选择太多

今天,LLSC 提供的工具可以让用户提交他们的工作并选择他们想要使用的处理器,“但是这对用户来说是很多猜测,”Samsi 说。“有人可能想使用最新的 GPU,但他们的计算实际上并不需要它,他们可以在 CPU 或低功率机器上获得同样令人印象深刻的结果。”

东北大学的 Devesh Tiwari 教授正在与 LLSC 团队合作,开发可帮助用户将其工作负载与适当硬件相匹配的技术。Tiwari 解释说,不同类型的 AI 加速器、GPU 和 CPU 的出现让用户面临太多选择。如果没有正确的工具来利用这种异质性,他们就会错过好处:更好的性能、更低的成本和更高的生产力。

“我们正在解决这个能力差距——提高用户的工作效率,帮助用户更好更快地进行科学研究,而不必担心管理异构硬件,”Tiwari 说。“我的博士生李宝林正在构建新的功能和工具,以帮助 HPC 用户利用基于贝叶斯优化和其他基于学习的优化方法的技术,在没有用户干预的情况下接近最优地利用异质性。但是,这只是开始。我们正在研究以一种原则性的方法在我们的数据中心中引入异构性,以帮助我们的用户自主且经济高效地实现异构性的最大优势。”

工作负载分类是通过数据中心挑战提出的许多问题中的第一个。其他包括开发人工智能技术来预测工作失败、节约能源或创建提高数据中心冷却效率的工作调度方法。

节能减排

为了调动对绿色计算的研究,该团队还计划发布 TX-GAIA 操作的环境数据集,其中包含机架温度、功耗和其他相关数据。

据研究人员称,存在巨大的机会来提高用于人工智能处理的 HPC 系统的电源效率。例如,LLSC 最近的工作确定了简单的硬件调整,例如限制单个 GPU 可以消耗的电量,可以将训练 AI 模型的能源成本降低 20%,而计算时间只会适度增加。“这种减少转化为大约一整周的家庭能源,仅增加三个小时的时间,”Gadepally 说。

他们还一直在开发预测模型准确性的技术,以便用户可以快速终止不太可能产生有意义结果的实验​​,从而节省能源。数据中心挑战赛将共享相关数据,使研究人员能够探索其他节能机会。

该团队希望从这项研究中吸取的经验教训可以应用于美国国防部运营的数千个数据中心。

其他合作者包括麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员。Charles Leiserson 教授的 Supertech 研究小组正在研究并行计算的性能增强技术,研究科学家 Neil Thompson 正在设计研究如何推动数据中心用户转向气候友好型行为。

作为 IEEE 国际并行和分布式处理研讨会的一部分,Samsi 在去年春天的首届 AI 数据中心优化 (ADOPT'22) 研讨会上介绍了这项工作。该研讨会正式向 HPC 社区介绍了他们的数据中心挑战。

“我们希望这项研究能够让我们和其他运行超级计算中心的人能够更好地响应用户需求,同时降低中心级别的能源消耗,”Samsi 说。