您现在的位置是:首页 >动态 > 2021-04-10 20:36:30 来源:
IBM研究人员开发了一对低功耗高性能的计算机视觉系统
近年来,机器学习算法有了突飞猛进的发展。例如,像Facebook这样的先进系统 可以在一小时内训练图像分类算法,而不会牺牲准确性。但是他们中的许多人都接受过具有强大GPU的高端机器的培训,随着物联网(IoT)行业向边缘计算发展,对低功耗人工智能(AI)模型的需求越来越大。
IBM的有前景的研究为更高效的算法奠定了基础。在本周于犹他州盐湖城举行的2018年计算机视觉和模式识别会议上,该公司的研究科学家正在发表两篇关于图像分类的论文。
第一个标题为“ BlockDrop:残余网络中的动态干扰路径 ”,建立在微软2015年发布的残余网络工作的基础上。残留网络(简称ResNets)引入了神经网络中各层之间的身份连接,使他们能够学习训练过程中的增量或残差表示。
IBM将这一想法更进一步。科学家们引入了一个轻量级的二级神经网络 - 在本文中称为“策略网络” - 在预先训练的ResNet中动态删除了残余块。为了确保性能增益不以精确度为代价,政策网络经过培训,使用最少数量的块并保持识别准确性。
“一般来说,如果你为模型添加更多层,你可以提高它的准确性,但是你会增加计算成本,”IBM研究经理Rogerio Feris在电话采访中告诉VentureBeat。“今天大多数现有模型的一个问题是,你有一个适合所有人的网络,其中相同的计算应用于所有图像。[我们]系统更有效地分配资源,并且[可以]准确地识别图像。“
BlockDrop平均加快了20%%的图像分类,在某些情况下加快了36%%,同时保持76.4%%的准确度 - 与实验的控制相同。
改善立体视觉
第二篇论文“ 低功耗,高吞吐量,基于全事件的立体声系统 ”解决了图像处理中的另一个问题:立体视觉。
正如IBM研究员Alexander Andreopoulos解释的那样,人类的眼睛彼此相距几厘米,从不同的角度看世界。大脑的视觉皮层无缝地将来自双眼的图像合并为一个,使我们能够感知深度,但是双摄像机器人系统具有更难以协调差异的时间。
“在计算机视觉的情况下,相机镜头会出现异常,这会导致噪音并使问题复杂化,”Andreopoulos说。
研究人员的解决方案:运行在IBM的TrueNorth神经形态芯片上的系统,该芯片具有针对机器学习模型优化的高度并行化架构。使用一组九个处理器,一对基于事件的摄像头(在检测到运动时仅拍摄图像的摄像头),以及将计算分配到上述芯片的笔记本电脑,捕获并处理400(最多2,000)每秒视差图。
Andreopoulos解释说,基于事件的摄像机的使用大大减少了带宽和能源使用。“立体声算法已经存在了30多年,但大多数这些系统......都采用积极的方法来感知世界。我们使用被动方法。
总体而言,与具有高帧率相机的最先进系统相比,该系统在每个视差图的每像素功率方面表现出200倍的改进。
Andreopoulos说,这些结果为依赖于低功耗,低延迟深度信息的机器人系统带来了前景。“[我想]它被用于老人的伴侣机器人...... [提供某种行动助力。