您现在的位置是:首页 >财经 > 2020-12-11 09:13:28 来源:

智能手机时代更快的视频识别

导读 机器学习的一个分支叫做深度学习,已经帮助计算机在定义明确的视觉任务(例如阅读医学扫描)方面超越了人类,但是随着技术的发展,它可以解释

机器学习的一个分支叫做深度学习,已经帮助计算机在定义明确的视觉任务(例如阅读医学扫描)方面超越了人类,但是随着技术的发展,它可以解释视频和现实事件,因此模型变得越来越大,计算量也越来越大。

据一个估计,训练视频识别模型比训练图像分类模型可多花费50倍的数据和8倍的处理能力。这是一个问题,因为对训练深度学习模型的处理能力的需求持续呈指数级增长,并且对AI的巨大碳足迹的担忧也在增加。在许多AI应用正在发展的低功率移动设备上运行大型视频识别模型仍然是一个挑战。

麻省理工学院电气工程与计算机科学系(EECS)的助理教授Song Han通过设计更有效的深度学习模型来解决这个问题。在国际计算机视觉会议上,Han,麻省理工学院研究生吉林和麻省理工学院IBM Watson AI实验室研究员Chuang Gan概述了缩小视频识别模型的方法,以加快训练速度并改善智能手机等设备的运行时性能。移动设备。通过将最新模型中的1.5亿个参数减少到2500万个参数,他们的方法可以将模型缩小到六分之一。

韩说:“我们的目标是使任何低功耗设备的人都可以使用AI。” “要做到这一点,我们需要设计高效的AI模型,该模型使用更少的能量并且可以在边缘设备上平稳运行,而大量AI正在移动。

摄像机和视频编辑软件的成本下降,以及新的视频流平台的兴起,使互联网充满了新的内容。每小时仅将30,000小时的新视频上传到YouTube。研究人员说,更有效地将内容分类的工具将有助于观看者和广告商更快地找到视频。此类工具还将帮助医院和疗养院等机构在本地运行AI应用程序,而不是在云中运行AI应用程序,以保持敏感数据的私密性和安全性。

底层的图像和视频识别模型是神经网络,可以对大脑如何处理信息进行松散建模。无论是数码照片还是视频图像序列,神经网络都在像素中寻找图案,并对其所看到的内容建立越来越抽象的表示。通过足够的示例,神经网络可以“学习”以识别人,物体以及它们之间的关系。