您现在的位置是:首页 >综合 > 2021-04-30 10:57:49 来源:

IBM研究人员为AI培训设计了一种快速高能效的芯片

导读 得益于强大的图形芯片和分布式计算的进步,优化人工智能核心的算法比以往任何时候都更容易。但它在当今的硬件上并不是特别有效 - 即使是

得益于强大的图形芯片和分布式计算的进步,优化人工智能核心的算法比以往任何时候都更容易。但它在当今的硬件上并不是特别有效 - 即使是功能强大的GPU也需要数天或数周的时间来训练神经网络。

IBM研究人员为AI培训设计了一种快速高能效的芯片

这促使IBM的研究人员开发出一种专为AI培训量身定制的新芯片。在Nature杂志上发表的一篇 名为 “使用模拟存储器的等效精度加速神经网络训练”的论文中,他们描述了一种晶体管和电容器系统,可以快速,精确,高效地训练神经网络。

神经网络由称为神经元或节点的互连单元(节点集合称为层)组成,它们接收数字输入。在基本网络中,单个神经元将这些输入乘以一个值 - 一个权重 - 并将它们传递给激活函数,激活函数定义节点的输出。通过称为反向传播的策略,权重随时间调整,提高了输出的准确性。

GPU非常适合这些,因为与传统处理器不同,后者按顺序处理数字,它们能够并行执行大量计算。但是因为图形芯片中的处理器和内存在主板上相互间隔很远,所以当数据在它们之间来回切换时会引入延迟。

“传统计算机[消耗]消耗大量能源,”领导该项目的IBM博士后研究员Stefano Ambrogio在接受采访时告诉VentureBeat,“并且还有很多等待。”

科学家的解决方案包括模拟存储器和传统电子元件。由一对相变存储器(PCM)单元组成的单个单元以及电容器和三个晶体管的组合对应于网络中的各个神经元。PCM将重量数据存储在存储器中,其在晶体管和电容器中表示为电荷。

当网络训练时,电容器会更新重量,经过数千次循环后将它们传输到PCM。

电容器不能保持超过几毫秒的值,但可以快速编程。PCM是一种非易失性存储器,不需要外部电源来保存数据。

研究使用硬件PCM和软件模拟组件的混合来设计基准,结果很有希望。该芯片每平方毫米的计算量比GPU高出100倍,而功耗却低280倍。更令人印象深刻的是,它与各种计算机视觉任务中的Google TensorFlow机器学习框架的速度和准确性相匹配。

“我们可以以非常准确的方式进行[计算],与软件的准确度相同,”Ambrogio说。

研究人员的芯片设计并非没有重要的警告:它没有针对未完全连接的神经网络进行优化,例如用于尖端语音识别应用的长期短期记忆(LSTM)网络。但研究人员计划下一步解决这个问题。

Ambrogio相信他们将来能够大规模建造物理芯片。他认为它们被用于训练智能手机和其他目前缺乏必要计算资源的设备中的神经网络。

“能够在需要的地方直接处理AI会很好,”Ambrogio说。“当你能够训练模型时,你不需要将信息[发送到云端]或让[设备]与其他东西进行通信,它可以立即对某些事情作出反应。