您现在的位置是:首页 >要闻 > 2020-12-08 16:55:41 来源:

谷歌AI研究科学家宣布数据集搜索

导读 从第一天开始,Google就开始涉足查找信息的业务。多年后,Google谈论有关数据集的严肃工作。Google正在启动一个新的搜索引擎,以帮助科学家

从第一天开始,Google就开始涉足查找信息的业务。多年后,Google谈论有关数据集的严肃工作。Google正在启动一个新的搜索引擎,以帮助科学家找到所需的数据集。

周三,Google AI研究科学家Natasha Noy宣布了Google推出Dataset Search。现在,如果您是科学家,则可以轻松访问数据集,或者只是另一种追求中的数据“怪胎”,即可为您的工作,故事和智力好奇心寻找数据。

目标是为您带来更多的单一界面。Engadget中的Jon Fingas研究了它如何使数据搜索受益。

“该工具可以更直接地访问以开放标准提供的数据,从而可以清楚地确定谁创建了信息,如何收集信息以及如何使用它。您不仅可以跟踪报告的气候数据,而且可以确保使用它是相关且合法的。”

这是一项全球性(与国际性一样)的推送,可以多种语言运行,并且即将支持其他语言。詹姆斯·文森特在《边缘》中引用了诺伊的话:“我确实认为在过去几年中,存储库的数量激增了。”

她说:“只需输入您要查找的内容,我们将帮助您找到存储库提供商网站上已发布的数据集。” 当前,数据集和相关数据往往分布在多个数据存储库中,人们可能会发现有关这些数据集的信息既未链接也未被搜索引擎索引。对于进行搜索的人而言,数据发现充其量是乏味的。

她认真地支持生态系统,在这种生态系统中,通过Google制定的指南鼓励数据集提供者自己“以Google(和其他搜索引擎)可以更好地理解其页面内容的方式来描述其数据”,她说过。

他们使用开放标准schema.org进行此操作。在Noy的愿望清单上:所有数据集提供者都落后于该通用标准。希望更多的数据存储库将使用schema.org标准来描述其数据集。Noyes说,这样一来,数据集便是“强大的生态系统”的一部分。

“像这样的搜索工具仅能满足数据发布者愿意提供的元数据。我们希望看到你们中的许多人使用开放标准来描述您的数据,使我们的用户能够找到他们想要的数据。 。”

恩加吉特(Engadget)的乔恩·芬加斯(Jon Fingas):“目前,这还不是确定的资源。但是,这只是一个开始,而Google无疑希望这会鼓励其他人提高其公共数据的可搜索性。”

如果这还不够,那么Google将在充分利用有关数据的数据方面削减一些途径。

根据The Verge的说法,开放数据研究所所长Jeni Tennison表示,理想情况下,Google会发布自己的数据集,以使用Dataset Search。她说,Google应该发布有关数据集搜索的数据集,该数据集将由“数据集搜索”建立索引,文森特补充说。他引用了她的话:

Tennison说:“仅仅了解人们的搜索方式很重要……他们使用什么样的术语,如何表达它们。” “如果我们想掌握人们如何搜索数据并使之更易于访问,那么如果Google在此基础上开放自己的数据,那就太好了。” 他补充说,换句话说,Google应该发布有关数据集搜索的数据集,该数据集将由“数据集搜索”建立索引。