您现在的位置是:首页 >生活 > 2021-04-20 17:50:13 来源:

Google和OpenAI的新工具让我们更好地了解人工智能

导读 人工智能的世界是什么样的?几十年来,研究人员一直对此感到困惑,但近年来,这个问题变得更加紧迫。机器视觉系统正在越来越多的生活领域得

人工智能的世界是什么样的?几十年来,研究人员一直对此感到困惑,但近年来,这个问题变得更加紧迫。机器视觉系统正在越来越多的生活领域得到应用,从医疗保健到自动驾驶汽车,但是通过机器的眼睛“看到” - 理解为什么它将那个人归类为行人但将其作为路标 -仍然是一个挑战。我们无法这样做可能会产生严重甚至致命的后果。有人会说,由于涉及自动驾驶汽车的死亡,它已经有了。

Google和OpenAI的新工具让我们更好地了解人工智能

谷歌和非营利实验室OpenAI的新研究希望通过绘制这些系统用于理解世界的视觉数据来进一步开放人工智能视觉的黑匣子。这种被称为“ 激活地图集 ”的方法让研究人员可以分析各种算法的工作原理,不仅揭示了他们识别的抽象形状,颜色和图案,还揭示了他们如何将这些元素结合起来识别特定的物体,动物和场景。

谷歌的Shan Carter是这项工作的首席研究员,他告诉The Verge,如果先前的研究就像在算法的视觉字母表中显示单个字母一样,激活地图集提供了更接近整个字典的东西,显示字母是如何组合在一起制作实际字词的。“因此,在像'鲨鱼'这样的图像类别中,会有很多激活因素,比如'牙齿'和'水',”卡特说。

这项工作不一定是一个巨大的突破,但它在更广泛的研究领域中向前迈出了一步,称为“特征可视化”。佐治亚理工学院的博士生Ramprasaath Selvaraju没有参与这项工作,他说这项研究“非常令人着迷的“并结合了许多现有的想法来创造一个新的”非常有用“的工具。

Selvaraju告诉The Verge,在未来,这样的工作将有很多用途,帮助我们建立更高效和先进的算法,并通过让研究人员进入内部来提高他们的安全性和消除偏见。“由于[神经网络]固有的复杂性,它们缺乏可解释性,”Selvaraju说。但他表示,未来,当这种网络经常用于驾驶汽车和引导机器人时,这将是必要的。

OpenAI的Chris Olah也参与了这个项目,他说:“感觉有点像创造一个显微镜。至少,这就是我们所追求的目标。“

激活神经元

要了解激活地图集和其他功能可视化工具的工作原理,首先需要了解一下AI系统如何识别对象。

实现这一目标的基本方法是使用神经网络:一种与人类大脑大致相似的计算结构(虽然它在复杂性方面落后了数年)。在每个神经网络内部是像网状物一样连接的人造神经元层。像大脑中的细胞一样,这些细胞会响应刺激,这一过程称为激活。重要的是,它们不仅可以开启或关闭; 它们在光谱上注册,为每次激活赋予特定值或“重量”。

要将神经网络变为有用的东西,您必须提供大量的训练数据。在视觉算法的情况下,这将意味着数十万甚至数百万的图像,每个图像都标记有特定的类别。在谷歌和OpenAI的研究人员为这项工作测试的神经网络的情况下,这些类别是广泛的:从羊毛到温莎的所有东西,从安全带到太空加热器。

当它提供这些数据时,神经网络中的不同神经元会响应每个图像而亮起。此模式连接到图像的标签,这种关联允许网络“学习”事物的样子。一旦经过训练,您就可以向网络显示以前从未见过的图片,并且神经元将激活,将输入与特定类别相匹配。恭喜!您刚刚训练了机器学习视觉算法。

如果所有这些听起来都令人不安,那就是因为,在很多方面,它都是如此。像许多机器学习程序一样,视觉算法本质上只是模式匹配机器。这给了他们一定的优势(例如,只要你拥有必要的数据和计算能力,他们就可以直接进行训练)。但它也给了他们某些弱点(就像他们很容易被他们之前从未见过的输入混淆的事实)。

由于研究人员在2010年初发现了神经网络在视觉任务方面的潜力,他们一直在修补自己的力学,试图弄清楚他们是如何做的。

早期的一项实验是DeepDream,这是2015年发布的计算机视觉计划,将任何图片变成了自身的幻觉版本。DeepDream的视觉效果肯定是有趣的(在某些方面,它们成为了人工智能的定义美学),但该程序也是一个像算法一样的早期尝试。“在某些方面,这一切都始于DeepDream,”奥拉说。

DeepDream所做的是将图像调整为尽可能有趣的算法。看起来软件似乎是在图像中发现“隐藏”的图案,但它更像是有人在着色书中涂鸦:用眼睛,茎,螺纹和鼻子填充每一寸,尽可能地激发算法。

后来的研究采用了同样的基本方法并对其进行了微调:首先针对网络中的单个神经元,看看是什么激发了它们,然后是神经元群,然后是网络不同层中神经元的组合。如果早期的实验是专注但偶然的,就像Isaac Newton 用钝针在眼睛里捅自己来理解视力一样,最近的工作就像Newton用棱镜分裂一缕光线。它更有针对性。通过绘制神经网络的每个部分中激活的视觉元素,一次又一次,最终,你得到图集:它的大脑的视觉索引。

机器视图

但是,激活地图集实际上向我们展示了算法的内部运作方式?嗯,你可以就在谷歌和OpenAI的例子导航开始在这里建退绕称为GoogLeNet或InceptionV1一个众所周知的神经网络的内部结构。

滚动,您可以看到网络的不同部分如何响应不同的概念,以及这些概念如何聚集在一起。(例如,狗只在一个地方,而鸟类在另一个地方。)你还可以看到网络的不同层代表不同类型的信息。较低级别更抽象,响应基本几何形状,而较高级别将这些解析为可识别的概念。

当你深入研究个别分类时,这真的很有趣。谷歌和OpenAI给出的一个例子是“浮潜”和“潜水员”类别之间的区别。

在下图中,您可以看到神经网络用于识别这些标签的各种激活。左边是与“潜水呼吸”密切相关的激活,右边是与“潜水员”密切相关的激活。中间的激活是在两个类之间共享,而条纹上的那些是更多差异化。

一目了然,你可以看出一些明显的颜色和图案。在顶部,你看起来像鲜艳的鱼的斑点和条纹,而在底部,有看起来像面具的形状。但右侧突出显示的是一种不寻常的激活 - 一种与机车密切相关的激活。当研究人员发现这一点时,他们感到困惑。为什么这些关于机车的视觉信息对识别水肺潜水员很重要?

“所以我们测试了它,”卡特说。“我们想,'好吧,如果我们把一辆蒸汽机车的图片从一个潜水员或一个潜水员那里翻过来?” 它确实如此。“

该团队最终找到了原因:这是因为机车的光滑金属曲线在视觉上类似于潜水员的空气罐。因此,对于神经网络来说,这是潜水员和潜水员之间的一个明显区别。为了节省区分这两个类别的时间,它只是从其他地方借用了所需的识别视觉数据。

这种例子令人难以置信地揭示了神经网络的运作方式。对于怀疑论者,它显示了这些系统的局限性。他们说,视觉算法可能是有效的,但他们学到的信息实际上与人类如何理解世界无关。这使他们容易受到某些诡计的影响。例如,如果您只将一些精心挑选的像素投射到图像中,则可能足以使算法对其进行错误分类。

但对于卡特,奥拉和其他类似的人来说,激活地图集和类似工具所揭示的信息显示了这些算法的惊人深度和灵活性。例如,Carter指出,为了使算法区分潜水员和潜水员,它还将不同类型的动物与每个类别联系起来。

“[动物]发生在深水中,像海龟一样,被水肺覆盖,表面上出现的像鸟类一样,被浮潜所覆盖,”他说。他指出,这是系统从未指导学习的信息。相反,它只是自己拾起它。“这有点像对世界更深刻的理解。这对我来说真的很令人兴奋。“

奥拉同意。“我发现在高分辨率下透过这些地图册看起来几乎令人敬畏,只看到这些网络可以代表的巨大空间。”

他们希望通过开发这样的工具,他们将有助于推动人工智能的整个领域。通过了解机器视觉系统如何看待世界,理论上我们可以更有效地构建它们并更彻底地检查它们的准确性。

“我们现在有一个有限的工具箱,”奥拉说。他说我们可以在系统上抛出测试数据来试图欺骗他们,但这种方法总是受到我们所知道的错误的限制。“但这给了我们 - 如果我们想投入精力 - 这是一种表现未知未知问题的新工具,”他说。“感觉就像每一代这些工具让我们更接近能够真正理解这些网络中正在发生的事情。”