您现在的位置是:首页 >要闻 > 2020-11-19 16:48:11 来源:

一项新研究教给AI人如何通过互联网视频移动

导读 密歇根大学的一项新研究可以训练神经网络模型,以识别视频中某个人的身体部位,而这些人的身体中只有一部分在镜头中可见。这项突破性发展为

密歇根大学的一项新研究可以训练神经网络模型,以识别视频中某个人的身体部位,而这些人的身体中只有一部分在镜头中可见。这项突破性发展为新的用途打开了一个庞大的视频内容库—教人们姿势背后的含义以及人们与环境互动的不同方式的机器。

当我们看到两只手在桌子上打字的图片时,我们可以推断出有一个人附着在那些看不见的地方。根据他们的手腕角度和桌子的高度,我们甚至可以判断他们是坐着还是站着。到目前为止,神经网络模型还不是很好。如果我们希望机器人和AI能够通过观察我们的眼睛就能告诉我们正在做什么,那么他们将需要对我们的身体在不同环境中的位置以及不同动作通常意味着什么有更深入的了解。

研究领域称为人体姿势估计,其重点是教AI识别图像或视频中人物的位置,最终使他们能够独立地建模这些人物的位置。但是,当前的模型通常是在非常干净的视频库中训练的,整个人都可以看到,并且在只有一部分人可见的情况下拍摄效果很差。

最重要的是,所使用的视频都带有标签-本质上,这些视频带有提供的正确解决方案,以便神经网络能够检查其工作。在这种情况下,这需要人工来明确标记显示人员的关节位置。

David Fouhey教授和博士 学生克里斯·罗克韦尔(Chris Rockwell)看到了这种做法的问题-在上传到公共网站的庞大视频内容库中,只有大约4%的人直截了当地展示了整个人。而且,当然,它们都没有标签。这意味着视频的整个世界几乎都被这些旧模型所封闭,新的视频将必须量身定制并手动标记才能使神经网络成功。

罗克韦尔说:“这些数据集在某种程度上被归一化,即一个人处于一定高度,并且他们位于图像的中心。” “互联网上的东西实际上并不是那样。”

为了克服这些限制,Rockwell和Fouhey提出了一对解决方案,该解决方案在2020年欧洲计算机视觉会议上发表。该技术最终在神经网络模型的视频训练中带来了两个重大突破:使模型能够在只有一部分人可见的情况下做出良好的预测,以及在未标记的视频上对这些模型进行自我训练,其中模型可以巧妙地挑出良好的猜测没有被告知解决方案。

首先,他们必须解决在这些截断的人像上训练的神经网络性能不佳的问题。为此,他们采取了直观的步骤来裁剪网络的早期培训集,使其看起来更像您在网上找到的视频。两人拍摄了一次全身活动的视频,并将其缩小为躯干,头部或手臂。现有模型已在这些作物上进行了重新训练,然后可以使用互联网视频中的新数据生成更合理的输出。

研究人员指出,该技术的直接设计使该方法在广泛使用时更加灵活。