自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了

新聞 機(jī)器學(xué)習(xí)
如何才能高效找到機(jī)器學(xué)習(xí)領(lǐng)域規(guī)模最大、質(zhì)量最高的數(shù)據(jù)集?為了響應(yīng)廣大網(wǎng)友的呼聲,網(wǎng)友u/UpdraftDev將全網(wǎng)最大的機(jī)器學(xué)習(xí)數(shù)據(jù)集整理匯集,并對(duì)這些數(shù)據(jù)集進(jìn)行了分類和介紹。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。 

想自己構(gòu)建機(jī)器學(xué)習(xí)模型,沒(méi)想到首先就卡在了***步。

網(wǎng)上各種數(shù)據(jù)集魚(yú)龍混雜,質(zhì)量也參差不齊,簡(jiǎn)直讓人挑花了眼。想要獲取大型數(shù)據(jù)集,還要挨個(gè)跑到各數(shù)據(jù)集的網(wǎng)站,兩個(gè)字:麻煩。

如何才能高效找到機(jī)器學(xué)習(xí)領(lǐng)域規(guī)模***質(zhì)量***的數(shù)據(jù)集?

為了響應(yīng)廣大網(wǎng)友的呼聲,網(wǎng)友u/UpdraftDev將全網(wǎng)***的機(jī)器學(xué)習(xí)數(shù)據(jù)集整理匯集,并對(duì)這些數(shù)據(jù)集進(jìn)行了分類和介紹。

想找心儀數(shù)據(jù)集,現(xiàn)在一目了然。網(wǎng)友紛紛表示:很滿意!

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了 | 資源

太方便了

這個(gè)網(wǎng)站上,共收集到了100多個(gè)業(yè)界***型的數(shù)據(jù)集。

根據(jù)任務(wù)類別,這些數(shù)據(jù)集中又分為三大類:計(jì)算機(jī)視覺(jué)(CV)、自然語(yǔ)言處理(NLP)和音頻數(shù)據(jù)集。

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了 | 資源

在網(wǎng)站主頁(yè),一眼掃過(guò)去可以看到數(shù)據(jù)集名稱、發(fā)布時(shí)間、簡(jiǎn)要介紹、開(kāi)源協(xié)議、相關(guān)論文等重要信息,查找起來(lái)非常方便。

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了 | 資源

點(diǎn)進(jìn)去就直接跳轉(zhuǎn)到網(wǎng)站主頁(yè)了,輕輕一點(diǎn),免去了你挨個(gè)搜索每個(gè)數(shù)據(jù)集地址的麻煩。

神仙數(shù)據(jù)集

清單中列舉的數(shù)據(jù)集中,不乏一些有趣的業(yè)界知名數(shù)據(jù)集,在很多的機(jī)器學(xué)習(xí)任務(wù)中,這些數(shù)據(jù)集都是最實(shí)用、出現(xiàn)場(chǎng)次***的那一批。

都是哪些神仙數(shù)據(jù)集?

計(jì)算機(jī)視覺(jué)領(lǐng)域

先來(lái)看一下CV領(lǐng)域,匯總中收納了70個(gè)大型數(shù)據(jù)集,很多經(jīng)常遇到的經(jīng)典數(shù)據(jù)集都在里面。

看看你能認(rèn)出幾個(gè):

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了 | 資源

其中,包含了英偉達(dá)去年12月開(kāi)源的人臉數(shù)據(jù)集FFHQ(Flickr-Faces-HQ),內(nèi)含7萬(wàn)張1024×1024分辨率的高清人臉大圖。

[[260143]]

它提供了高度多樣化、高質(zhì)量的人臉數(shù)據(jù),并且涵蓋了比現(xiàn)有高分辨率數(shù)據(jù)集(如CelebA-HQ)更多的變化,比如更多佩戴眼鏡、帽子的照片。

也有一些熟悉的中國(guó)企業(yè)身影。

比如百度開(kāi)放的自動(dòng)駕駛數(shù)據(jù)集ApolloScape,包括感知、仿真場(chǎng)景、路網(wǎng)數(shù)據(jù)等數(shù)十萬(wàn)幀逐像素語(yǔ)義分割標(biāo)注的高分辨率圖像數(shù)據(jù)。

數(shù)據(jù)集采用了逐像素語(yǔ)義分割標(biāo)注的方式,是環(huán)境復(fù)雜、標(biāo)注精準(zhǔn)、數(shù)據(jù)量大的自動(dòng)駕駛數(shù)據(jù)集。

[[260144]]

騰訊開(kāi)源的Tencent ML-Images項(xiàng)目,其多標(biāo)簽圖像數(shù)據(jù)集ML-Images包含了1800萬(wàn)圖像和1.1萬(wàn)多種常見(jiàn)物體類別,比谷歌開(kāi)源的Open Images數(shù)據(jù)集還豐富不少。

當(dāng)然,像ImageNet、KITTI、COCO、Cityscapes等這樣的老牌經(jīng)典數(shù)據(jù)集也都在里面。

自然語(yǔ)言處理(NLP)領(lǐng)域

NLP領(lǐng)域目前有26個(gè)數(shù)據(jù)集:

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了 | 資源

斯坦福大學(xué)NLP組的SQuAD 2.0你得了解一下,和一代相比,2.0版在增加對(duì)抗性問(wèn)題的同時(shí),也新增了一項(xiàng)“判斷一個(gè)問(wèn)題能否根據(jù)提供的閱讀文本作答”的任務(wù)。

SQuAD 2.0中不僅包含十萬(wàn)個(gè)問(wèn)題-答案對(duì),還有超過(guò)五萬(wàn)個(gè)由人類眾包者對(duì)抗性地設(shè)計(jì)的無(wú)法回答的問(wèn)題。

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了 | 資源

CoQA數(shù)據(jù)集也是斯坦福開(kāi)發(fā)的對(duì)話數(shù)據(jù)集,包含來(lái)自8k組對(duì)話的127k個(gè)帶有答案的問(wèn)題。這些對(duì)話涉及 7 個(gè)不同領(lǐng)域,每組對(duì)話的平均長(zhǎng)度為15輪,每一輪對(duì)話都由問(wèn)題和回答組成。

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了 | 資源

此外,DeepMind的Q&A問(wèn)答數(shù)據(jù)集、微軟的MS MARCO機(jī)器閱讀理解數(shù)據(jù)集、三名中國(guó)學(xué)生推出的HotpotQA新型問(wèn)答數(shù)據(jù)集等,都可以在這份清單中一鍵直達(dá)。

音頻數(shù)據(jù)集

還有四個(gè)大型音頻數(shù)據(jù)集:

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了 | 資源

谷歌的大規(guī)模音頻數(shù)據(jù)集AudioSet,包含632類的音頻類別以及2084320 條人工標(biāo)記的每段10秒的聲音剪輯片段,覆蓋大范圍人類與動(dòng)物、樂(lè)器與音樂(lè)流派、日常環(huán)境聲音。

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了 | 資源

谷歌NSynth數(shù)據(jù)集,收錄了從1000種樂(lè)器中采集的大量注釋的音符,包括不同的音高和速率,比同類的公共數(shù)據(jù)集大了一個(gè)數(shù)量級(jí)。

初創(chuàng)公司Mozilla公布的Common Voice數(shù)據(jù)集,內(nèi)含2萬(wàn)名英語(yǔ)志愿者500小時(shí)、40萬(wàn)份錄音,語(yǔ)料庫(kù)也在不斷擴(kuò)充中。

數(shù)據(jù)集查找神器!100個(gè)大型機(jī)器學(xué)習(xí)數(shù)據(jù)集都匯總在這了 | 資源

還有LibriSpeech ASR corpus語(yǔ)音數(shù)據(jù)集,包括1000小時(shí)的英文發(fā)音和對(duì)應(yīng)文字,數(shù)據(jù)來(lái)自LibriVox項(xiàng)目的有聲讀物,是一個(gè)大型的語(yǔ)料數(shù)據(jù)庫(kù)。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2022-09-03 23:58:52

機(jī)器學(xué)習(xí)Python數(shù)據(jù)集

2020-06-24 07:53:03

機(jī)器學(xué)習(xí)技術(shù)人工智能

2020-08-12 09:46:46

TensorFlow數(shù)據(jù)機(jī)器學(xué)習(xí)

2020-07-15 13:51:48

TensorFlow數(shù)據(jù)機(jī)器學(xué)習(xí)

2023-12-01 16:23:52

大數(shù)據(jù)人工智能

2022-08-22 11:34:42

開(kāi)源數(shù)據(jù)

2019-10-12 11:20:42

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-12-13 09:14:06

清單管理數(shù)據(jù)集

2019-06-19 09:13:29

機(jī)器學(xué)習(xí)中數(shù)據(jù)集深度學(xué)習(xí)

2021-07-07 11:08:21

機(jī)器學(xué)習(xí)數(shù)據(jù)集PHP

2021-03-08 15:42:54

數(shù)據(jù)庫(kù)Apache Iceb開(kāi)源

2020-04-29 13:40:32

數(shù)據(jù)集數(shù)據(jù)科學(xué)冠狀病毒

2017-01-19 18:58:30

Open Baton開(kāi)源MANO

2020-11-01 16:53:31

pandas數(shù)據(jù)分析數(shù)據(jù)集

2016-01-15 09:59:12

機(jī)器學(xué)習(xí)數(shù)據(jù)集

2022-09-19 00:21:31

機(jī)器學(xué)習(xí)數(shù)據(jù)數(shù)據(jù)集

2023-08-28 10:42:22

數(shù)據(jù)庫(kù)Oracle

2012-01-05 09:56:35

數(shù)據(jù)中心高效節(jié)能Facebook

2013-03-19 10:17:59

云計(jì)算谷歌BigQuery

2022-09-20 23:42:15

機(jī)器學(xué)習(xí)Python數(shù)據(jù)集
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)