自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌剛剛發(fā)布了2500萬個免費(fèi)數(shù)據(jù)集,快來了解一下

開發(fā) 開發(fā)工具 大數(shù)據(jù)
最近,谷歌發(fā)布了免費(fèi)工具datasetsearch,它可以搜索2500萬個公開可用的數(shù)據(jù)集。搜索工具包括過濾器,可基于許可證(免費(fèi)或付費(fèi))、格式(csv,圖像等)和更新時間限制結(jié)果。

[[316672]]

來源:Pexels

 

注意:谷歌的新數(shù)據(jù)集搜索工具已于2020年1月23日問世。

疫情防控階段,大家的“寒假“越過越長,這么“長”時間的寒假能做些什么呢?

最近,谷歌發(fā)布了免費(fèi)工具datasetsearch,它可以搜索2500萬個公開可用的數(shù)據(jù)集。

搜索工具包括過濾器,可基于許可證(免費(fèi)或付費(fèi))、格式(csv,圖像等)和更新時間限制結(jié)果。

結(jié)果還包括對數(shù)據(jù)集內(nèi)容的描述以及作者的引用。

谷歌的數(shù)據(jù)集聚合方法不同于其他數(shù)據(jù)集存儲庫(如亞馬遜的開放數(shù)據(jù)注冊表)。與其他自行管理和托管數(shù)據(jù)集的存儲庫不同,谷歌不會直接管理或提供2500萬個數(shù)據(jù)集的訪問權(quán)限。

取而代之的是,谷歌依靠數(shù)據(jù)集發(fā)布者,使用 schema.org的開放標(biāo)準(zhǔn)描述其數(shù)據(jù)集的元數(shù)據(jù)。然后,谷歌索引元數(shù)據(jù),并使其在發(fā)布者之間可搜索。

發(fā)布者仍需自己托管數(shù)據(jù)集,因此符合schema.org標(biāo)準(zhǔn)的營利性發(fā)布者也將使用谷歌為其數(shù)據(jù)集建立索引。根據(jù)以往經(jīng)驗,筆者發(fā)現(xiàn),搜索與市場相關(guān)的數(shù)據(jù)集時,其百分比更高,搜索結(jié)果中約有一半的數(shù)據(jù)集來自營利性聚合器。

該平臺上其他受歡迎的數(shù)據(jù)集發(fā)布者包括政府機(jī)構(gòu)和研究機(jī)構(gòu)。谷歌聲稱,僅美國政府機(jī)構(gòu)就已經(jīng)發(fā)布了超過200萬個數(shù)據(jù)集。

據(jù)谷歌統(tǒng)計,大多數(shù)數(shù)據(jù)集涉及”地球科學(xué)、生物學(xué)和農(nóng)業(yè)領(lǐng)域。”

簡單使用schema.org的開放標(biāo)準(zhǔn)即可發(fā)布自己的數(shù)據(jù)集。越來越多的出版商遵守該標(biāo)準(zhǔn),公開可用的數(shù)據(jù)集的數(shù)量可能會持續(xù)增長。

目前,谷歌未提供用于搜索或下載免費(fèi)數(shù)據(jù)集的API。

網(wǎng)上數(shù)百萬個數(shù)據(jù)集出沒

在網(wǎng)絡(luò)上,用戶感興趣的任何主題,幾乎都有數(shù)百萬個數(shù)據(jù)集。如果想購買一只小狗,可以查找數(shù)據(jù)集來匯總買家的投訴或查找對小狗認(rèn)知度的研究?;蛘?,如果喜歡滑雪,可以查找有關(guān)滑雪勝地收入或受傷率及受傷人數(shù)的數(shù)據(jù)。Dataset Search 已為其中近2500萬個數(shù)據(jù)集建立了索引,可以在一個地方搜索數(shù)據(jù)集并查找指向數(shù)據(jù)所在位置的鏈接。在過去一年里,人們對其進(jìn)行嘗試并提供了反饋,現(xiàn)在DatasetSearch正式退出測試版。

查詢“滑雪”的一些搜索結(jié)果,涉及最快滑雪者的速度以及滑雪勝地收入的數(shù)據(jù)集。

Dataset Search有何創(chuàng)新之處?

根據(jù)從DatasetSearch早期試用版中得到的反饋,開發(fā)者添加了新功能?,F(xiàn)在,根據(jù)所需的數(shù)據(jù)集類型(例如表格、圖像、文本)或是否可以從提供商處免費(fèi)獲得數(shù)據(jù)集,就可以過濾結(jié)果。如果數(shù)據(jù)集是關(guān)于某個地區(qū)的,可以查看地圖。另外, 該產(chǎn)品現(xiàn)在可以在移動設(shè)備上使用,并且數(shù)據(jù)集描述的質(zhì)量得到了極大改善。然而,一件事情沒有改變:發(fā)布數(shù)據(jù)的任何人都可以使用開放標(biāo)準(zhǔn)(schema.org)在自己的網(wǎng)頁上描述其數(shù)據(jù)集的屬性,從而使人們在搜索中可以發(fā)現(xiàn)數(shù)據(jù)集。

開發(fā)者還了解到有不同類型的人在尋找數(shù)據(jù)。有一些學(xué)術(shù)研究人員正在尋找可以支持其假設(shè)的數(shù)據(jù)(例如:嘗試催產(chǎn)素)、學(xué)生查找表格形式并涵蓋其高級論文主題的免費(fèi)數(shù)據(jù)(例如:嘗試使用相應(yīng)過濾器的監(jiān)禁率)、業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家尋找有關(guān)移動應(yīng)用程序或快餐店等的信息。所有這些都有數(shù)據(jù)!用戶都搜索什么呢?最常見的查詢包括“教育”、“天氣”、“癌癥”,“犯罪”、“足球”和“狗”。

上圖為查詢“快餐店”的一些搜索結(jié)果。

在Dataset Search里有哪些數(shù)據(jù)集?

Dataset Search還提供了網(wǎng)上數(shù)據(jù)的快照。此處有一些亮點。數(shù)據(jù)集涵蓋的最大主題是地球科學(xué)、生物學(xué)和農(nóng)業(yè)。世界上大多數(shù)國家的政府都會發(fā)布數(shù)據(jù),并使用schema.org對其進(jìn)行描述。美國可用的開放政府?dāng)?shù)據(jù)集超過200萬,在數(shù)量上遙遙領(lǐng)先。最受歡迎的數(shù)據(jù)格式是什么?用戶可以在DatasetSearch中找到超過600萬張表格。

在Dataset Search中找到的數(shù)據(jù)集數(shù)量持續(xù)增加。如果站點上有一個數(shù)據(jù)集,并使用開放標(biāo)準(zhǔn)schema.org對其進(jìn)行了描述,其他人可以在DatasetSearch中找到它。如果知道一個數(shù)據(jù)集存在,但是在DatasetSearch中找不到它,請要求提供者添加schema.org描述,其他人也將了解他們的數(shù)據(jù)集。

未來何去何從?

DatasetSearch已退出測試版,但無論產(chǎn)品是否有“測試版”,改進(jìn)都將繼續(xù)??煜螺d體驗DatasetSearch吧!

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2024-04-16 13:34:26

JSONMsgpack存儲

2021-12-15 10:29:44

iOS蘋果系統(tǒng)

2023-10-08 10:37:48

springweb版本

2024-10-31 13:49:04

2024-04-11 12:19:01

Rust數(shù)據(jù)類型

2021-01-18 05:19:11

數(shù)字指紋

2020-03-01 17:53:38

Excel大數(shù)據(jù)微軟

2024-09-19 09:30:39

緩存框架抽象

2020-12-10 08:44:35

WebSocket輪詢Comet

2021-01-21 10:23:43

數(shù)據(jù)庫架構(gòu)技術(shù)

2022-03-24 13:36:18

Java悲觀鎖樂觀鎖

2019-11-27 11:27:52

分布式存儲系統(tǒng)

2018-07-11 15:04:16

人工智能知識圖譜

2019-02-20 14:16:43

2020-02-10 14:26:10

GitHub代碼倉庫

2015-10-23 17:09:27

Snappy Ubun

2020-12-01 17:46:24

FossilGit

2018-06-05 17:40:36

人工智能語音識別

2018-07-27 23:45:08

數(shù)據(jù)中心機(jī)房設(shè)計IDC

2020-03-05 11:40:46

開源技術(shù) 趨勢
點贊
收藏

51CTO技術(shù)棧公眾號