您现在的位置是:首页 >要闻 > 2020-12-11 08:51:53 来源:
恢复图像和视频的丢失尺寸
导读 麻省理工学院的研究人员开发了一种模型,该模型可以恢复因压缩成较小尺寸的图像和视频而丢失的宝贵数据。该模型可用于从运动模糊图像或新的
麻省理工学院的研究人员开发了一种模型,该模型可以恢复因“压缩”成较小尺寸的图像和视频而丢失的宝贵数据。
该模型可用于从运动模糊图像或新的摄像机中重新创建视频,这些摄像机捕获人在拐角处的运动,但只能作为模糊的一维线。尽管需要进行更多的测试,但研究人员认为这种方法有朝一日可以用于将2D医学图像转换为内容更丰富(但价格更高)的3D身体扫描,这可以使贫穷国家的医学成像受益。
“在所有这些情况下,视觉数据都在时间或空间上完全失去了一个维度,”计算机科学与人工智能实验室(CSAIL)的博士后,最初描述该模型的论文的作者Guha Balakrishnan说,在下周的计算机视觉国际会议上将进行介绍。“如果我们恢复丢失的尺寸,它将具有许多重要的应用。”
捕获的可视数据通常会将时间和空间的多个维度的数据折叠为一维或二维,称为“投影”。例如,X射线将有关解剖结构的三维数据折叠成平面图像。或者,考虑长时间曝光的恒星在天空中移动的镜头:位置随时间变化的恒星在静止镜头中显示为模糊的条纹。
同样,最近在麻省理工学院发明的“转角摄像机”可以检测到拐角处的人。例如,这些对于消防员在燃烧的建筑物中找到人可能有用。但是这些相机并非完全用户友好。目前,它们仅产生类似于人的轨迹和速度的模糊,弯曲的线条的投影。
研究人员发明了“视觉投影”模型,该模型使用神经网络来“学习”将低维投影与其原始高维图像和视频相匹配的模式。给定新的投影,该模型将使用所学的知识来重新创建投影中的所有原始数据。
在实验中,该模型通过从与角落摄像机产生的相似的单个一维线中提取信息来合成显示人走动的精确视频帧。该模型还从流行的“移动MNIST”数据集中,通过单个,运动模糊的数字投影在屏幕周围移动来恢复视频帧。