您现在的位置是:首页 >综合 > 2020-12-09 08:51:01 来源:

弥合人机视觉之间的鸿沟

导读 假设您从几英尺远的地方短暂看过一个从未见过的人。退后几步,再看一次。你能认出她的脸吗?当然可以。您可能在想。如果这是真的,那么这意

假设您从几英尺远的地方短暂看过一个从未见过的人。退后几步,再看一次。你能认出她的脸吗?“当然可以。”您可能在想。如果这是真的,那么这意味着我们的视觉系统已经看到了一个物体(例如特定面部)的单个图像,例如,尽管该物体的位置和比例发生了变化,但仍能可靠地识别它。另一方面,我们知道最先进的分类器(例如香草深层网络)将无法通过此简单测试。

为了识别一系列变换下的特定人脸,需要使用在不同条件下的许多人脸示例来训练神经网络。换句话说,它们可以通过记忆实现不,但是如果只有一张图像可用则无法做到这一点。因此,了解人类视觉如何实现这一非凡的成就与旨在改进其现有分类器的工程师相关。对于神经科学家用深度网络对灵长类动物视觉系统进行建模也很重要。特别是,生物视觉所展现的一键式学习的不可能需要与深度网络相比完全不同的计算策略。

麻省理工学院博士学位论文 电气工程和计算机科学专业的候选人Yena Han及其同事在《自然科学报告》上题为“人类视觉中新对象的尺度和平移不”,讨论了他们如何更仔细地研究这种现象以创建新的受生物启发的网络。

脑中心研究中心主任Tomaso Poggio说:“与深​​度网络不同,人类可以从很少的例子中学到东西。这是巨大的差异,对视觉系统的工程设计和理解人类视觉的真正工作意义重大。”头脑与机器(CBMM)和麻省理工学院的尤金·麦克德莫特(Eugene McDermott)脑与认知科学教授。“造成这种差异的一个关键原因是灵长类动物视觉系统在缩放,移动和其他变换方面的相对不。奇怪的是,在AI社区中,这一点大多被忽略了,部分原因是心理物理数据远不及清晰的数据-汉的工作现在已经建立了对人类视觉基本不的可靠测量。”

为了区分固有计算中的不与经验和记忆中的不,这项新研究测量了一次学习中不的范围。通过向不熟悉该语言的人类受试者呈现韩语字母刺激来执行一次学习任务。这些字母最初是在一种特定条件下一次出现的,并在与原始条件不同的比例或位置上进行了测试。第一个实验结果是-正如您所猜测的那样,人类仅接触这些新颖的物体就显示出显着的尺度不变识别。第二个结果是位置不变的范围受到限制,这取决于对象的大小和位置。

接下来,Han和她的同事们在深度神经网络中进行了可比的实验,旨在重现这种人类行为。结果表明,为了解释人类对物体的不变识别,神经网络模型应该明确地包含内置的尺度不。此外,通过使模型神经元的感受野越远离视场中心,它们的视野就越能在网络中得到更好的复制。该体系结构与常用的神经网络模型不同,后者使用相同的共享滤镜以统一的分辨率处理图像。

CBMM研究人员和负责人Han表示:“我们的工作提供了对不同视角下对象的大脑表示的新理解。它对AI也有影响,因为结果为深入了解什么是深度神经网络的良好架构设计提供了新见解。”该研究的作者。