数据集网站（来了）-快速备案

全文共4401字，预计学习时长13分钟图源：Unsplash文章开始之前，我们先看一组错误的数据搜索工具。随着算法和大数据的爆炸式发展，百度谷歌等搜索引擎变得越来越强大。渐渐的不光是文字、图片，现在数据集也可以搜索啦。是的，你没听错。现在搜索数据集就像搜索图片一样方便了！我近来最爱的谷歌搜索新成员，就是数据集搜索引擎 Dataset Search。点击这里尝试使用Dataset SearchDataset Search所体现的公众数据读写覆盖程度如果没人使用的话， GoogleImages和Google Scholar之类的谷歌垂直搜索引擎是不会长久的。所以，它们的变化可以从某种程度上体现人们在网络上的搜索倾向。图片、视频和新闻都不难想象。但是数据集呢？数据集搜索引擎的出现让大家知道，和数据集有关的人并不是什么遥远雪国里与世隔绝的三两位教授。数据集的影响力其实很大……而且与日俱增。数据集存在什么隐患吗？并没有。它和谷歌的图片和学术搜索没什么不同，只不过搜索的是数据集罢了。目前，超过两千万数据集已经编入索引以供查找……而且数量在迅速增长。如今，两千万数据集轻松易得，而且数目还在日渐增多。既然知道了它的存在，现在你就可以在这里试试。或者，你也可以多看看文章，了解数据集搜索引擎是如何运作的，它对数据科学乃至人文社科等行业又意味着什么。我最近使用Dataset Search时的截屏。在读研时，我会不计一切代价求别人告诉我如何像上图一样找到数据。（事实上读研时确实得这样做：写长篇邮件乞求别的实验室施舍他们的数据，而且往往徒劳无用。现在的新途径太方便了，哭哭。）加速分析的革命数据科学中，分析学是需要快速获得灵感的学科。和统计学或机器学习不同，速度是分析学中最重要的一点。（稳妥起见，好的分析师在跟进新的数据前，不会让自己莽撞得出结论。）获得数据的速度更快，你的分析能力就越强。方便获取数据集的好处是什么？更快速的分析！Dataset Search能以惊人的速度提升所有专业分析师和数据科学家的工作效率。（但是记住，如果你容易随便下结论的话，一定要用统计学方法仔细跟进。）说的都对，那它有什么陷阱吗？如果在你的成长中，数据集非常罕见、珍贵，而且仅由教授或者数据提供者建立的话，你很可能会觉得提供数据的人会对数据质量负责（或许提供者还有一两个博士学位），而我们大多数人都是这样想的！如果你频繁在学习或科研中使用数据集，那你可能也会觉得所有数据集在你经手前都已经被仔细整理好了。真正的数据科学是荒野求生，而不是由教授们悉心培养的圣地。暂时将这些见解抛开，想象另外一种：外行人对数据崇拜所带来的负面影响。任何会认真说出“数据”两个字的人都可能会觉得，用结构化形式包装的所有信息都真实可用。醒醒，数据不是魔法。不要迷信文章书籍，也不要迷信数据集。这里可以了解更多关于数据本质和数据崇拜的信息。如果你的生活中，大多数人给你的数据都有信誉担保，或者有人教你要崇拜数据和科学，那你的世界可能要崩塌了。告诉你一个可怕的消息，数据集可能只是一堆结构化的垃圾。它可能已经不能用了，也可能是假的，还可能是60亿个零，什么都有可能。就和文字一样！“书里写的肯定都是真的……”说到文字：“书里写的肯定都是真的……”对吗？错了！那更近/进？一步：“网上写的都是真的……”好的，我看到你们生气的脸了，我很满意。你们肯定开始怀疑这句话了，没有的话也应该有。那这句呢？“数据集里写的肯定都是真的……”你怎么想呢？一本书！它肯定讲的都是真的。（书名《地球不是圆的》）在这个世界，人们想写什么就写什么，所以垃圾到处都有。比起直接相信所看到的东西，为什么不花点时间想想东西的来源？很好，这个习惯将也会保证你在跟数据科学打交道时安全无虞。如果对数据的信任甚至超过了文字，那就要小心了。如果对数据的信任甚至超过了文字，那就要小心了。这个习惯的养成很可能悄无声息。不要觉得数据是什么大写加粗的牛逼玩意。重新培养搜索谷歌图片和使用整个互联网的习惯。谷歌并不拥有或者编辑那些猫猫照片或者隐身药水制作方法（大家都知道隐身药水是没用的，对吧？），而且网络资源质量参差不齐，不管读到什么，都要自己批判性地思考来源再决定是否可信。互联网上东西五花八门，但是已经不会有人轻易受骗。呃，大多数人不会吧。即使是智者也会偶尔点进那些“一周减十斤”之类的链接或者怪异故事。如果将日常上网的批判态度用在数据集搜索上，那你肯定不会中招。对待数据集搜索结果的态度要像对待其他网络搜索结果一样。比如工具能帮你筛选草篮，但是猫猫拖着的草篮质量好不好还是需要自己反复确认。但是，如果要在一个数量庞大、内容丰富但质量有别的猫猫图片集，和3张精美的猫猫图片集中选，我无论如何都会选前一个。（好吧我两个都会选，因为我很贪……当然你也可以。搜索工具又不实行一夫一妻制。）网络基本由垃圾组成网上的一切并不都是好的。但是谷歌已经尽力杜绝垃圾，优先推荐真实可信的结果了。对，人们会将垃圾数据集放在网上吸引注意力，打分也是为了能够筛选出优质的东西。就像普通的搜索引擎一样。但是这些肯定都无法保证完美。想要让别人搜索你的数据集，只需要将涵盖数据集的每个网页中加入schema.org的元数据。想要让别人搜索你的数据集，只需要将涵盖数据集的每个网页中加入schema.org的元数据。任何人都能这样做，这就跟写博客一样简单。里面的内容可能很烂，所以要仔细判断。在即将跳入茫茫数据大海前，头脑一定要清醒。不要相信所有读到的东西。怎么上传数据集，schema.org又是什么？2011年，一个由谷歌、必应、Yandex、微软和雅虎等知名企业一同诞生了组织schema.org的想法。这些公司懒得去猜扒下来的网页内容，所以想创建一个让提供者说明提供内容的常见词汇表。这个词汇表能嵌入到HTML中来指示每个部分描述的是事件、地址、食谱还是其他各种东西。它就是一个小小的概要（正如其名！），能够描述各种类型的信息。如果将schema.org加入网页，并向它说明该网页拥有数据集，那么这个数据集就有资格出现在Dataset Search的搜索结果里了。数据提供者使用schema.org来告诉大家他们的网站有数据集，并描述了一些有关的元数据。这并不是什么谷歌特有的魔术，而是任何人都可以出一份力的开放社区。许多公司多年来一直悄悄使用它。图源：Unsplash谷歌独有的贡献是用DataSearch引擎来搜索数据集。数据提供者能使用schema.org来告诉大家他们的网站有数据集，并介绍了相关的元数据。而Dataset Search就像是普通的搜索工具，但是搜索结果仅限于声称拥有数据集的网页。它简洁又有用。如何加入分享数据少数几个大提供者把控了数据的来源，而且他们负责仔细建立好每个数据时（比如说政府和大学），其他小型的提供者便会缺乏分享的渠道。想象一下这个画面：一群女高中生正在钻研课外的机器人项目。她们收集了大量数据，这些数据可能会帮到有相同爱好的人，而且她们甚至还愿意分享这些数据（她们人真好）。她们在高中学校的官网上放了数据的链接，而这些数据正是你制作原型所需的。然后呢？全是女孩的阿富汗机器人小组。图源： SOURCE如果她们的数据集无法被搜索，你永远都不会找到它。如果这些数据必须要由一个组织者（比如政府）来建立才能够流通，她们肯定要慢慢排队来……而且可能永远排不到前面。将稀缺资源用于繁重的信息综合处理的数据提供者只有有限的时间和精力，优先分享的地方也很少。结果呢？大家永远不知道自己错过了什么。这就是为什么数据集搜索有很高的价值。（没有中间人告诉你赶紧滚的）分享数据意味着人们能够发现并提供优秀的资源，即便各人口味独特……或者将数据放在了难找的高中官网上。要想分享能被搜索的数据：1.得先有数据。2.通过schema.org表明数据的存在（这一步可以自己来，也可以放在Zenodo等数据库里自动进行）其他陷阱要想达到上述两个条件并分享数据，各领域间的完成条件是有区别的。比如，政府会将他们的数据集编入索引。所以政府倾向于收集的大量数据集（有人收集天气数据吗？）是很好的备选数据，而专有的、收集代价高昂的数据则很难获取。尽管如此，数据每天都在增加，搜索服务同时为免费和付费数据敞开大门。（有点像谷歌图片中有水印的专有图像。）选择权在你，判断付费是否有价值的权力也在你手上。人类的远景在数据集搜索等方面，庞大的用户群是人类在数据科学和数据素养方面进化的象征。人类正在作为一个物种成长，同时又扩展感官运用的方式和信息交流的方式。数据分析变成了每个人的玩具。曾经的人们打开一个网页就会感到惊奇，之后就变成了在浏览器中打开50个选项卡，每个数据点一个。现在，人们渴望的越来越多。比如能用编码工具（Python和R等）快速构建和总结来进行工作的数据集。现在的社区中，数据是通用语，数量庞大。有越来越多人懂得数据技能，并且不再满足于用图片覆盖书写的页面。（比如你正在看的这个页面，哈哈。）图源： SOURCE.数据读写的进化就在你消化这篇文字的时候？，你需要读写能力，才能让大脑从阅读的东西中整理出信息。这个技能大家都觉得理所当然。如果拥有这种技能的人很少，本文就不会存在。谷歌可能也不会存在。Dataset Search表明数据读写的民主化趋势正在上升。同样，Dataset Search表明数据读写的民主化趋势正在上升。整体的发展就像是攀登和练瑜伽。“处理数据不再是彻头彻尾的小众技能了！”它不再像是几个文士将象形文字雕凿成泥板那样了。（不对，这不就是写作吗。意思没区别啦。）在线数据集提供了自我表达的新工具，它遵循互联网的普适规则。数据集搜索引擎能在石头中挑出宝石。图源：Unsplash数据集正在成为一种广泛的交流形式，就像一种美丽的新语言，很多人都能流利使用，而且每天都在学习更多的知识。对于我们这些从小就在讲数据的人来说，能够用我们的语言获得搜索结果是一种极大的欣慰。所以我对Dataset Search的看法很直接：“终——于来了！”我迫不及待要去继续享受数据搜索带来的快乐啦！留言点赞关注我们一起分享AI学习与发展的干货如转载，请后台留言，遵守转载规范

本文出自快速备案，转载时请注明出处及相应链接。

本文永久链接: https://kuaisubeian.cc/38849.html

相关文章

kuaisubeian