您现在的位置是:首页 >市场 > 2020-10-29 14:39:21 来源:

综合数据的真正希望

导读 每年,世界产生的数据都比前一年更多。根据国际数据公司(International Data Corporation)的数据,仅在2020年,估计将创建,捕获,复制和

每年,世界产生的数据都比前一年更多。根据国际数据公司(International Data Corporation)的数据,仅在2020年,估计将“创建,捕获,复制和使用” 59 ZB的数据,足以填充大约1万亿兆的64 GB硬盘。

但是,仅仅因为数据激增并不意味着每个人都可以实际使用它们。正确关心用户隐私的公司和机构通常会限制对数据集的访问,有时是在自己的团队中。现在,COVID-19大流行已经关闭了实验室和办公室,阻止人们访问集中式数据存储,安全地共享信息变得更加困难。

如果无法访问数据,则很难使工具真正起作用。输入合成数据:人工信息开发人员和工程师可以用作真实数据的替代者。

合成数据有点像减肥汽水。为了有效,它必须在某些方面类似于“真实的事物”。减肥汽水的外观,味道和泡沫应该像普通汽水一样。同样,合成数据集必须具有与实际数据集相同的数学和统计属性。“看起来很像,而且格式也很像,” Kalyan Veeramachaneni说,他是MIT信息与决策系统实验室的首席数据科学家,也是AI数据研究所(DAI)的首席研究员。如果它通过模型运行,或者用于构建或测试应用程序,则其性能将与真实数据一样。

但是,就像低碳苏打水比常规苏打水具有更少的卡路里一样,合成数据集在关键方面也必须与真实数据集有所不同。例如,如果它基于真实数据集,则不应包含甚至暗示该数据集中的任何信息。

给该针穿线很棘手。经过多年的工作,Veeramachaneni和他的合作者最近推出了一套开源数据生成工具-一站式商店,用户可以在其中以表格到时间序列的格式获取项目所需的尽可能多的数据。他们称其为“合成数据仓库”。

在保持隐私的同时最大化访问权限

Veeramachaneni和他的团队于2013年首次尝试创建综合数据。他们的任务是分析来自在线学习程序edX的大量信息,并希望吸引一些MIT学生来提供帮助。数据非常敏感,无法与这些新员工共享,因此该团队决定创建供学生使用的人工数据-假设“一旦他们编写了处理软件,我们就可以在实际数据上使用它”,Veeramachaneni说。