您现在的位置是:首页 >要闻 > 2020-12-02 08:29:22 来源:
训练AI在照片中生成各种姿势和颜色的物体和动物
大多数的救火车都是红色的,但是用蓝色描绘一个并不难。电脑几乎没有创造力。他们对世界的理解通常会从字面上被他们所训练的数据所着色。如果他们所看到的只是红色消防车的照片,他们将无法绘制其他任何东西。
为了给计算机视觉模型一个更完整,更富想象力的世界视图,研究人员尝试为它们提供更多不同的图像。有些人尝试从奇特的角度和不寻常的位置拍摄物体,以更好地传达其真实世界的复杂性。其他人则要求模型使用称为GAN或生成对抗网络的人工智能形式生成自己的图片。在这两种情况下,目的都是为了填补图像数据集的空白,以更好地反映三维世界,并使面部和对象识别模型的偏向性降低。
在国际学习表示会议上的一项新研究中,麻省理工学院的研究人员提出了一种创造力测试,以查看GAN可以对给定图像进行细化处理。他们将模型“引导”到照片的主体中,并要求其在明亮的光线下,在空间中旋转或以不同的颜色绘制特写的物体和动物。
该模型的创建方式有些微妙,有时甚至令人惊讶。事实证明,这些变化密切跟踪了人类摄影师在镜头前构图时的创造力。这些偏差被烘焙到基础数据集中,该研究中提出的控制方法旨在使这些限制可见。
麻省理工学院的研究科学家阿里·贾哈尼安说:“潜伏空间是图像的DNA所在。” “我们证明,您可以直接进入这个抽象空间,并控制您希望GAN表现出的特性,直到某一点。我们发现GAN的创造力受到其学习图像的多样性的限制。” 贾哈尼(Jahanian)被合著者露西·柴(Lucy Chai)博士加入研究。麻省理工学院的学生,高级作者Phillip Isola,Bonnie and Marty(1964)Tenenbaum CD电气工程和计算机科学助理教授。
研究人员将他们的方法应用于已经接受ImageNet 1400万张照片训练的GAN。然后,他们测量了模型在变换不同类别的动物,物体和场景方面可以走多远。他们发现,艺术冒险的程度因GAN试图操纵的主题类型而有很大差异。
例如,一个上升的热气球比旋转的比萨饼产生更多的醒目的姿势。缩小波斯猫而不是知更鸟时,情况也是如此,猫离观察者越远,融化成一堆毛皮,而鸟几乎保持不变。他们发现,模特高兴地把汽车变成了蓝色,将水母变成了红色,但是它拒绝用标准颜色以外的任何颜色画金翅雀或救火车。