谷歌剛剛發(fā)布了2500萬個免費(fèi)數(shù)據(jù)集,快來了解一下
注意:谷歌的新數(shù)據(jù)集搜索工具已于2020年1月23日問世。
疫情防控階段,大家的“寒假“越過越長,這么“長”時間的寒假能做些什么呢?
最近,谷歌發(fā)布了免費(fèi)工具datasetsearch,它可以搜索2500萬個公開可用的數(shù)據(jù)集。
搜索工具包括過濾器,可基于許可證(免費(fèi)或付費(fèi))、格式(csv,圖像等)和更新時間限制結(jié)果。
結(jié)果還包括對數(shù)據(jù)集內(nèi)容的描述以及作者的引用。
谷歌的數(shù)據(jù)集聚合方法不同于其他數(shù)據(jù)集存儲庫(如亞馬遜的開放數(shù)據(jù)注冊表)。與其他自行管理和托管數(shù)據(jù)集的存儲庫不同,谷歌不會直接管理或提供2500萬個數(shù)據(jù)集的訪問權(quán)限。
取而代之的是,谷歌依靠數(shù)據(jù)集發(fā)布者,使用 schema.org的開放標(biāo)準(zhǔn)描述其數(shù)據(jù)集的元數(shù)據(jù)。然后,谷歌索引元數(shù)據(jù),并使其在發(fā)布者之間可搜索。
發(fā)布者仍需自己托管數(shù)據(jù)集,因此符合schema.org標(biāo)準(zhǔn)的營利性發(fā)布者也將使用谷歌為其數(shù)據(jù)集建立索引。根據(jù)以往經(jīng)驗,筆者發(fā)現(xiàn),搜索與市場相關(guān)的數(shù)據(jù)集時,其百分比更高,搜索結(jié)果中約有一半的數(shù)據(jù)集來自營利性聚合器。
該平臺上其他受歡迎的數(shù)據(jù)集發(fā)布者包括政府機(jī)構(gòu)和研究機(jī)構(gòu)。谷歌聲稱,僅美國政府機(jī)構(gòu)就已經(jīng)發(fā)布了超過200萬個數(shù)據(jù)集。
據(jù)谷歌統(tǒng)計,大多數(shù)數(shù)據(jù)集涉及”地球科學(xué)、生物學(xué)和農(nóng)業(yè)領(lǐng)域。”
簡單使用schema.org的開放標(biāo)準(zhǔn)即可發(fā)布自己的數(shù)據(jù)集。越來越多的出版商遵守該標(biāo)準(zhǔn),公開可用的數(shù)據(jù)集的數(shù)量可能會持續(xù)增長。
目前,谷歌未提供用于搜索或下載免費(fèi)數(shù)據(jù)集的API。
網(wǎng)上數(shù)百萬個數(shù)據(jù)集出沒
在網(wǎng)絡(luò)上,用戶感興趣的任何主題,幾乎都有數(shù)百萬個數(shù)據(jù)集。如果想購買一只小狗,可以查找數(shù)據(jù)集來匯總買家的投訴或查找對小狗認(rèn)知度的研究?;蛘?,如果喜歡滑雪,可以查找有關(guān)滑雪勝地收入或受傷率及受傷人數(shù)的數(shù)據(jù)。Dataset Search 已為其中近2500萬個數(shù)據(jù)集建立了索引,可以在一個地方搜索數(shù)據(jù)集并查找指向數(shù)據(jù)所在位置的鏈接。在過去一年里,人們對其進(jìn)行嘗試并提供了反饋,現(xiàn)在DatasetSearch正式退出測試版。
查詢“滑雪”的一些搜索結(jié)果,涉及最快滑雪者的速度以及滑雪勝地收入的數(shù)據(jù)集。
Dataset Search有何創(chuàng)新之處?
根據(jù)從DatasetSearch早期試用版中得到的反饋,開發(fā)者添加了新功能?,F(xiàn)在,根據(jù)所需的數(shù)據(jù)集類型(例如表格、圖像、文本)或是否可以從提供商處免費(fèi)獲得數(shù)據(jù)集,就可以過濾結(jié)果。如果數(shù)據(jù)集是關(guān)于某個地區(qū)的,可以查看地圖。另外, 該產(chǎn)品現(xiàn)在可以在移動設(shè)備上使用,并且數(shù)據(jù)集描述的質(zhì)量得到了極大改善。然而,一件事情沒有改變:發(fā)布數(shù)據(jù)的任何人都可以使用開放標(biāo)準(zhǔn)(schema.org)在自己的網(wǎng)頁上描述其數(shù)據(jù)集的屬性,從而使人們在搜索中可以發(fā)現(xiàn)數(shù)據(jù)集。
開發(fā)者還了解到有不同類型的人在尋找數(shù)據(jù)。有一些學(xué)術(shù)研究人員正在尋找可以支持其假設(shè)的數(shù)據(jù)(例如:嘗試催產(chǎn)素)、學(xué)生查找表格形式并涵蓋其高級論文主題的免費(fèi)數(shù)據(jù)(例如:嘗試使用相應(yīng)過濾器的監(jiān)禁率)、業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家尋找有關(guān)移動應(yīng)用程序或快餐店等的信息。所有這些都有數(shù)據(jù)!用戶都搜索什么呢?最常見的查詢包括“教育”、“天氣”、“癌癥”,“犯罪”、“足球”和“狗”。
上圖為查詢“快餐店”的一些搜索結(jié)果。
在Dataset Search里有哪些數(shù)據(jù)集?
Dataset Search還提供了網(wǎng)上數(shù)據(jù)的快照。此處有一些亮點。數(shù)據(jù)集涵蓋的最大主題是地球科學(xué)、生物學(xué)和農(nóng)業(yè)。世界上大多數(shù)國家的政府都會發(fā)布數(shù)據(jù),并使用schema.org對其進(jìn)行描述。美國可用的開放政府?dāng)?shù)據(jù)集超過200萬,在數(shù)量上遙遙領(lǐng)先。最受歡迎的數(shù)據(jù)格式是什么?用戶可以在DatasetSearch中找到超過600萬張表格。
在Dataset Search中找到的數(shù)據(jù)集數(shù)量持續(xù)增加。如果站點上有一個數(shù)據(jù)集,并使用開放標(biāo)準(zhǔn)schema.org對其進(jìn)行了描述,其他人可以在DatasetSearch中找到它。如果知道一個數(shù)據(jù)集存在,但是在DatasetSearch中找不到它,請要求提供者添加schema.org描述,其他人也將了解他們的數(shù)據(jù)集。
未來何去何從?
DatasetSearch已退出測試版,但無論產(chǎn)品是否有“測試版”,改進(jìn)都將繼續(xù)??煜螺d體驗DatasetSearch吧!