谷歌的目标是对全世界的信息进行组织和管理。该公司最初瞄准了商业网络,而目前谷歌想要用新的数据集搜索引擎,为科学界提供服务。这个名为“数据集搜索”(Dataset Search)的新服务于今天推出,将成为谷歌学术搜索服务的伴侣服务。在网上发布数据的机构,例如大学和政府部门,可以在网页中加入元数据标签,以描述他们的数据,包括谁创建了数据、何时发布数据,以及如何收集数据。
随后,这些信息将被谷歌的搜索引擎编目,并与来自知识图谱的信息相结合。比如说,如果某个数据集由欧洲核子研究中心(CERN)发布,那么有关该研究所的信息也会被包含在搜索结果中。
谷歌人工智能研究科学家娜塔莎·诺伊(Natasha Noy)协助开发了数据集搜索。她表示,这个新服务的目标是将数万个不同在线数据集存档统一起来。“我们想要让这些数据可以被发现,但数据仍保留在原始位置。”
目前,数据集的发布非常碎片化。不同科学领域都有自己首选的数据集存档,而政府部门也是如此。诺伊指出,科学家们长期以来的困扰都是不知道到哪里去找数据集,一旦他们走出自己的圈子,事情就变得困难。
来源:网络