您现在的位置是:首页 >人工智能 > 2021-04-28 10:12:18 来源:

设计用于标记视觉场景的系统也可以检测特定对象

导读 物体识别 - 确定物体在数字图像中的位置 - 是计算机视觉中的一个核心研究课题。 但是,一个看图像的人会自发地对整个场景作出更高层次

物体识别 - 确定物体在数字图像中的位置 - 是计算机视觉中的一个核心研究课题。

但是,一个看图像的人会自发地对整个场景作出更高层次的判断:它是一个厨房,一个露营地,或一个会议室。在计算机科学研究人员中,被称为“场景识别”的问题受到的关注相对较少。

去年12月,在神经信息处理系统年会上,麻省理工学院的研究人员宣布编制了世界上最大的根据场景类型标记的图像数据库,有700万个条目。通过利用被称为“深度学习”的机器学习技术 - 这是神经网络的经典人工智能技术的复兴 - 他们用它来训练最成功的场景分类器,即25到33之间百分比比其最好的前辈更准确。

在本周末举行的国际学习代表大会上,研究人员将展示一篇新论文,证明在学习如何识别场景的过程中,他们的系统也学会了如何识别物体。这项工作意味着,场景识别和物体识别系统至少可以协同工作。但它也证明了它们可以证明是相辅相成的可能性。

“深度学习非常有效,但很难理解它为何起作用 - 网络正在构建的内部表征是什么,”麻省理工学院计算机科学与工程副教授,资深作者安东尼奥·托拉尔巴说。新文章。“可能是场景的表现形式是没有任何意义的场景的一部分,如角落或物体碎片。但它可能是它的对象:要知道某些东西是卧室,你需要看到床;要知道某个东西是会议室,你需要看一张桌子和椅子。这就是我们发现的,网络真的找到了这些东西。“

第一作者,电子工程和计算机科学研究生Bolei Zhou加入了Torralba的新论文。主要研究科学家Aude Oliva和麻省理工学院计算机科学与人工智能实验室的访问科学家Agata Lapedriza; 和Aditya Khosla,Torralba小组的另一名研究生。

在引擎盖下

与所有机器学习系统一样,神经网络尝试识别与人类执行的注释相关的训练数据的特征 - 例如,语音记录的转录,或与图像相关联的场景或对象标签。但是,与生产当今手机中常见的语音识别软件的机器学习系统不同,神经网络对这些功能的外观没有先前的假设。

这听起来像是灾难的一个秘诀,因为系统可能最终会因为无关紧要的相关性而无关紧要。但神经网络不是从人类指导中获得方向感,而是从它们的结构中得出。它们被组织成层次:处理单元的库 - 在大脑中的神经元上松散地建模 - 在每层中对它们被馈送的数据执行随机计算。但是他们然后将结果提供给下一层,依此类推,直到最后一层的输出与数据注释相对应。随着网络接收更多数据,它会重新调整其内部设置,以尝试生成更准确的预测。

麻省理工学院的研究人员网络处理了数百万输入图像后,一直重新调整其内部设置,在标记场景中准确率约为50% - 人类只有80%准确,因为他们对高级场景不同意标签。但研究人员并不知道他们的网络是如何做的。

然而,神经网络中的单元对不同的输入作出不同的响应。如果一个单元被调谐到特定的视觉特征,如果特定输入完全没有该特征,它将根本不响应。如果该功能明显存在,它将作出强有力的回应。

麻省理工学院的研究人员确定了60个图像,这些图像在其网络的每个单元中产生最强烈的响应; 然后,为了避免偏见,他们将图像集合发送给亚马逊的Mechanical Turk众包网站上的付费工作人员,他们要求他们确定图像之间的共性。

超越类别

“第一层,超过一半的单位被调整为简单的元素 - 线条或简单的颜色,”Torralba说。“当你在网络中向上移动时,你开始发现越来越多的物体。还有其他的东西,比如地区或表面,可能是草或衣服。所以它们仍然是高度语义的,你也看到了增加。”

根据Mechanical Turk工作人员的评估,网络顶部大约一半的单元被调整到特定的对象。“另一半,他们要么检测到物体,要么做得不好,或者我们只是不知道他们在做什么,”托拉尔巴说。“他们可能正在检测我们不知道如何命名的部分。或者可能是网络还没有完全融合,完全学会了。”

在正在进行的工作中,研究人员从头开始并在相同的数据集上重新训练他们的网络,看它是否一致地收敛于相同的对象,或者它是否可以在不同的方向上随机演变,仍然可以产生良好的预测。他们还在探索物体检测和场景检测是否可以相互反馈,以提高两者的性能。“但我们希望这样做的方式不会迫使网络做一些它不想做的事情,”托拉尔巴说。