您现在的位置是:首页 >人工智能 > 2022-01-28 15:02:50 来源:
用于边缘AI设备的4兆位nvCIM宏
边缘AI设备是结合人工智能(AI)和边缘计算技术的系统,正在成为快速发展的物联网(IoT)生态系统的重要组成部分。这些设备包括智能扬声器、智能手机、机器人、自动驾驶汽车、无人机和数据处理监控摄像头。
尽管这些技术在过去几年中变得越来越先进,但它们中的大多数都表现出有限的能源效率、推理精度和电池寿命。非易失性内存计算(nvCIM)架构是一类新兴的方法,可最大限度地减少处理器和内存组件之间的数据移动,有助于显着降低与复杂AI计算相关的延迟和能耗。
台积电(TSMC)的研究人员最近开发了一种新的四兆位(4Mb)nvCIM方法,可以帮助提高边缘AI设备的整体性能。他们提出的架构发表在NatureElectronics上的一篇论文中,将存储单元与基于互补金属氧化物半导体(CMOS)技术的外围电路相结合。
“使用传统冯诺依曼计算架构为AI应用程序运行的神经网络的计算延迟和能耗主要由处理元件和内存之间的数据移动主导,从而造成称为内存墙的性能瓶颈,”Meng-FanChang,进行这项研究的一名研究人员告诉TechXplore。“NvCIM可以通过允许向量矩阵乘法的模拟操作来帮助克服电池供电的AI边缘设备的内存壁瓶颈,这是推理阶段神经网络中的主要计算操作。”
NvCIM架构可以显着减少在AI边缘设备中的处理器和内存之间传输的数据量,尤其是当设备在芯片上执行推理和开机操作时。这反过来又可以提高能源效率并延长电池寿命。
Chang和他的同事近10年来一直在开发内存计算(CIM)设备。在他们过去的研究中,他们使用了各种不同的内存组件,包括SRAM、STT-MRAM、PCM、ReRAM和NAND-Flash,来评估最终的性能。
“在过去五年中,我们在顶级微电子会议(ISSCC、IEDM和DAC)上发表了40篇与CIM相关的论文,”Chang解释说。“我们最近的工作建立在我们对CIM的长期研究的基础上,其中概述了内存电路设计的技术背景、神经网络的系统级芯片设计和人工智能算法。”
研究人员创建的新4MbnvCIM架构基于22纳米铸造电阻随机存取存储器(ReRAM)设备,也称为忆阻器。值得注意的是,Chang和他的同事发现它可以执行涉及8位输入、8位权重和14位输出的高精度点积运算,且延迟小且能效高。
“我们开发了一种基于硬件的输入整形电路,使用软硬件协同设计方法来提高能效,而不会降低系统级推理精度,”Chang说。“为了减少计算延迟并提高读出精度,我们开发了一种非对称调制输入和校准(AMIC)方案。”
为了减少他们设备的计算延迟,研究人员构建了一个校准和加权的电流-电压叠加电路,该电路具有一个2位输出和全范围电压模式检测放大器。该电路还确保了最高有效位(MSB)的良好读出良率,从而降低了架构的整体读出能量。
Chang和他的同事创建的架构可以处理跨各种应用场景的复杂计算任务。此外,与以往提出的其他nvCIM架构相比,它更精确,具有更高的计算吞吐量和更大的内存容量,消耗的能量更少,计算延迟更低。
“我们还专注于软硬件协同设计,以进一步提高芯片级性能,”Chang说。“用于人工智能和支持人工智能的物联网(AIoT)应用的现有高级边缘设备通常采用nvCIM进行断电数据存储,以抑制待机模式下的功耗和唤醒期间的轻计算任务。”
未来,这组研究人员开发的架构可用于提高不同边缘人工智能设备的性能和能源效率,从智能手机到更复杂的机器人系统。除其他外,它可以支持由各种神经网络模型执行的基本向量矩阵乘法(VMM),包括用于图像分类的卷积神经网络(CNN)或深度神经网络(DNN)。
“电路级别的优化、nvCIM架构的新颖性、规范的改进以及nvCIM宏的性能肯定是我们路线图上的下一个目标,”Chang补充道。“软硬件协同设计也是我们未来的研究课题之一,我们的目标是开发对nvCIM友好的神经网络算法,以进一步最大化nvCIM宏的性能。除此之外,我们的目标是将nvCIM宏和其他必要的数字电路进入下一代人工智能芯片的芯片级系统设计。”