您现在的位置是:首页 >生活 > 2020-11-27 09:21:20 来源:

减少深度学习的碳足迹

导读 6月,OpenAI推出了世界上最大的语言模型,这是一种称为GPT-3的文本生成工具,可以编写创意小说,将法文翻译成普通英语,并回答晦涩的琐事问

6月,OpenAI推出了世界上最大的语言模型,这是一种称为GPT-3的文本生成工具,可以编写创意小说,将法文翻译成普通英语,并回答晦涩的琐事问题。这是通过深度学习实现的最新智能技术,深度学习是一种以大脑中神经元处理和存储信息的方式为模式的机器学习方法。

但这要付出高昂的代价:假设该模型是在标准的神经网络芯片或GPU上进行训练的,至少要花费460万美元和355年的计算时间。该模型的巨大大小(比典型语言模型大1000倍)是其高昂成本的主要因素。

麻省理工学院的研究员尼尔·汤普森(Neil Thompson)说:“您必须投入更多的计算才能使性能有所提高。”他追踪了深度学习对计算的坚定需求。“这是不可持续的。我们必须找到更有效的方式来扩展深度学习或开发其他技术。”

关于AI的最新进展的一些激动已经转移到了警报。在去年的一项研究中,马萨诸塞州大学阿默斯特分校的研究人员估计,训练大型深度学习模型会产生626,000磅变暖的二氧化碳,相当于五辆汽车的终身排放量。随着模型的增大,它们对计算的需求超过了硬件效率的提高。专门用于神经网络处理的芯片,例如GPU(图形处理单元)和TPU(张量处理单元),已经抵消了对更多计算的需求,但还远远不够。

“我们需要重新思考从软件到硬件的整个堆栈,” MIT-IBM Watson AI Lab的MIT主管和MIT Quest for Intelligence的联合主管Aude Oliva说。“深度学习使最近的AI革命成为可能,但是其不断增长的能源和碳排放成本却难以为继。”

1950年代,计算极限使神经网络摆脱了最早的化身-感知器的困扰。随着计算能力的爆炸式增长,以及互联网释放出的数据海啸,它们演变成用于模式识别和预测的强大引擎。但是,由于需要大量数据的模型要求增加计算量,因此每个新的里程碑都会带来成本爆炸。例如,GPT-3训练了0.5万亿个单词,并膨胀了1750亿个参数(将模型关联在一起的数学运算或权重),使其尺寸比前一年(本身仅一年)的尺寸大100倍。

在预打印服务器arXiv上发布的工作中,Thompson和他的同事表明,深度学习模型超越关键基准的能力追踪了它们在计算能力上的近乎指数级的增长。(就像其他寻求追踪AI的碳足迹的团队一样,由于缺乏报告要求,该团队不得不猜测许多模型的能源消耗)。研究人员认为,以这种速度,深层网络只有在它们及其运行的硬件变得更加高效时才能生存。