您现在的位置是:首页 >人工智能 > 2022-08-30 16:57:06 来源:
ROBEArray可以让小公司访问流行的人工智能形式
莱斯大学计算机科学家的一项突破性低内存技术可以让小公司能够接触到资源最密集的人工智能形式之一——深度学习推荐模型(DLRM)。
DLRM推荐系统是一种流行的AI形式,它学习提出用户认为相关的建议。但是,由于顶级训练模型需要超过100TB的内存和超级计算机规模的处理能力,它们只提供给少数财力雄厚的科技巨头。
Rice的“随机偏移块嵌入阵列”或ROBE阵列可以改变这一点。这是一种用于削减称为嵌入表的DLRM内存结构大小的算法方法,它将于本周在加利福尼亚州圣克拉拉举行的机器学习和系统会议(MLSys2022)上发表,并获得了杰出论文荣誉。
AnshumaliShrivastava说:“仅使用100兆字节的内存和单个GPU,我们证明了我们可以匹配需要100兆字节内存和多个处理器的最先进DLRM训练方法的训练时间并将推理效率提高一倍。”,莱斯大学计算机科学副教授,他在MLSys2022上与ROBEArray的共同创造者AdityaDesai(Shrivastava研究小组的一名莱斯研究生)和莱斯大学前博士后研究员、现在在西德克萨斯州的LiChou一起展示这项研究农工大学。
“ROBEArray为DLRM压缩设定了新的基准,”Shrivastava说。“它使无法使用高端硬件或无法训练数百TB模型所需的工程专业知识的普通用户能够接触到DLRM。”
DLRM系统是从数据中学习的机器学习算法。例如,一个为购物者推荐产品的推荐系统将使用来自过去交易的数据进行训练,包括用户提供的搜索词、他们提供了哪些产品以及他们购买了哪些产品(如果有的话)。提高推荐准确性的一种方法是将训练数据分类为更多类别。例如,公司可以为男士、女士和儿童洗发水创建类别,而不是将所有洗发水放在一个类别中。
对于训练,这些分类表示被组织在称为嵌入表的内存结构中,Desai表示,由于分类的增加,这些表的大小“已经爆炸式增长”。
“嵌入表现在占DLRM模型总内存占用的99.9%以上,”Desai说。“这会导致许多问题。例如,它们不能以纯粹的并行方式进行训练,因为模型必须被分解成多个部分并分布在多个训练节点和GPU上。并且在它们经过训练并投入生产之后,在嵌入式表格中查找信息约占向用户返回建议所需时间的80%。”
Shrivastava说,ROBEArray通过使用一种称为散列的数据索引方法来创建“一个学习参数的单一数组,它是嵌入表的压缩表示”,从而消除了存储嵌入表的需要。他说,然后可以“使用GPU友好的通用哈希”从阵列中访问嵌入信息。
Shrivastava、Desai和Chou使用广受欢迎的DLRMMLPerf基准测试了ROBEArray,该基准测量系统可以多快地将模型训练到目标质量指标。使用许多基准数据集,他们发现ROBEArray在训练精度方面可以匹配或超过先前发布的DLRM技术,即使在将模型压缩三个数量级之后也是如此。
“我们的结果清楚地表明,大多数深度学习基准可以被基本算法完全推翻,”Shrivastava说。“鉴于全球芯片短缺,这对人工智能的未来来说是个好消息。”
ROBEArray并不是Shrivastava在MLSys的第一次大轰动。在MLSys2020上,他的团队推出了SLIDE,这是一种“亚线性深度学习引擎”,可在商用CPU上运行,性能优于基于GPU的训练器。他们在MLSys2021上跟进,展示了矢量化和内存优化加速器可以提高SLIDE的性能,使其训练深度神经网络的速度比顶级GPU系统快15倍。