深度學(xué)習(xí)中常用的開(kāi)源數(shù)據(jù)集
圖像分類(lèi)
1.MNIST
http://yann.lecun.com/exdb/mnist/
MNIST 數(shù)據(jù)集是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)領(lǐng)域中最著名的數(shù)據(jù)集之一,常用于訓(xùn)練各種圖像處理系統(tǒng)。
MNIST 數(shù)據(jù)集包含了 70,000 張小型的黑白圖像,每張圖像的大小是 28x28 像素。每個(gè)圖像都是手寫(xiě)數(shù)字(0到9)的一個(gè)實(shí)例。
它非常適合初學(xué)者練習(xí)圖像分類(lèi)技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等算法。
圖片
2.CIFAR-10
CIFAR-10 數(shù)據(jù)集是另一種在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)研究領(lǐng)域廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集。
https://www.cs.toronto.edu/~kriz/cifar.html
它由加拿大高級(jí)研究院(Canadian Institute For Advanced Research, CIFAR)發(fā)布,因此得名 CIFAR。CIFAR-10 特別適用于開(kāi)發(fā)和測(cè)試圖像識(shí)別算法。
CIFAR-10 包含 60,000 張 32x32 像素的彩色圖像,這些圖像被分為 10 個(gè)類(lèi)別,每個(gè)類(lèi)別各 6,000 張圖像。這些類(lèi)別包括:飛機(jī)、汽車(chē)、鳥(niǎo)、貓、鹿、狗、青蛙、馬、船和卡車(chē)。
圖片
3.ImageNet
https://www.image-net.org/
ImageNet 數(shù)據(jù)集是一個(gè)大規(guī)模的圖像數(shù)據(jù)集,廣泛用于計(jì)算機(jī)視覺(jué)研究和各種圖像處理算法的訓(xùn)練和測(cè)試。
這個(gè)數(shù)據(jù)集由斯坦福大學(xué)的研究人員啟動(dòng)和維護(hù),包含超過(guò) 1400 萬(wàn)張圖片和超過(guò) 20,000 個(gè)類(lèi)別。
它用于大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)和訓(xùn)練深度學(xué)習(xí)模型。
圖片
4.fashion-mnist
Fashion-MNIST 數(shù)據(jù)集是由 Zalando(一家德國(guó)的時(shí)尚科技公司)發(fā)布的一個(gè)圖像數(shù)據(jù)集,旨在作為機(jī)器學(xué)習(xí)研究中經(jīng)典的 MNIST 手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集的直接替代品。
Fashion-MNIST 包含 70,000 張 28x28 像素的灰度圖像,這些圖像分為 10 個(gè)類(lèi)別,每個(gè)類(lèi)別有 7,000 張圖像,這些類(lèi)別包括:T恤/上衣、褲子、套頭衫、連衣裙、外套、涼鞋、襯衫、運(yùn)動(dòng)鞋、包和踝靴。
圖片
5.CelebA
https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
CelebA 數(shù)據(jù)集是一個(gè)大型的人臉屬性數(shù)據(jù)集,廣泛用于計(jì)算機(jī)視覺(jué)研究中,特別是在面部識(shí)別、面部屬性識(shí)別和面部編輯等領(lǐng)域。
這個(gè)數(shù)據(jù)集由香港中文大學(xué)的研究者開(kāi)發(fā)和維護(hù),CelebA 包含超過(guò) 200,000 張名人面部的圖像,覆蓋了大約 10,000 名不同的名人,每張圖像都標(biāo)有 40 種不同的屬性(如發(fā)型、帽子、眼鏡、笑容等),以及 5 個(gè)關(guān)鍵點(diǎn)位置(眼睛、鼻子、嘴巴)的標(biāo)記。
圖片
自然語(yǔ)言處理
6.IMDB 評(píng)論
https://ai.stanford.edu/~amaas/data/sentiment/)
IMDB 評(píng)論數(shù)據(jù)集(Internet Movie Database Review Dataset)是一個(gè)廣泛用于自然語(yǔ)言處理(NLP)和情感分析研究的數(shù)據(jù)集。
它包含來(lái)自 IMDB 網(wǎng)站的 50,000條電影評(píng)論,分為訓(xùn)練集和測(cè)試集各 25,000 條,每個(gè)評(píng)論都是一個(gè)文本片段,并且?guī)в幸粋€(gè)標(biāo)簽,表示該評(píng)論是正面的(positive)還是負(fù)面的(negative)。
圖片
7.20個(gè)新聞組
https://www.kaggle.com/datasets/crawford/20-newsgroups
20 個(gè)新聞組數(shù)據(jù)集由 Ken Lang 編制,包含約 18000 個(gè)新聞組文檔,分布在 20 個(gè)不同的新聞組。
它常用于文本分類(lèi)和聚類(lèi)任務(wù)。
圖片
8.SQuAD
https://rajpurkar.github.io/SQuAD-explorer/
斯坦福問(wèn)答數(shù)據(jù)集 (SQuAD) 是一個(gè)閱讀理解數(shù)據(jù)集,由眾包工作者針對(duì)一系列維基百科文章提出的問(wèn)題組成,其中每個(gè)問(wèn)題的答案都是來(lái)自相應(yīng)段落的一段文本。斯坦福問(wèn)答數(shù)據(jù)集包含 100,000 多個(gè)用于機(jī)器理解的問(wèn)題。
圖片
9.GLUE
https://gluebenchmark.com/
GLUE (General Language Understanding Evaluation) 是一個(gè)用于評(píng)估自然語(yǔ)言處理(NLP)模型在廣泛語(yǔ)言理解任務(wù)上的性能的基準(zhǔn)數(shù)據(jù)集。
GLUE 旨在提供一個(gè)綜合性的評(píng)估框架,通過(guò)多個(gè)不同的NLP任務(wù)來(lái)測(cè)試模型的廣泛性和魯棒性。
10.COCO
https://cocodataset.org/#home
COCO 數(shù)據(jù)集是一個(gè)用于對(duì)象檢測(cè)、分割和圖像字幕生成的廣泛使用的基準(zhǔn)數(shù)據(jù)集。
它由微軟研究院發(fā)布,旨在提供豐富的標(biāo)注數(shù)據(jù),用于訓(xùn)練和評(píng)估計(jì)算機(jī)視覺(jué)模型。
圖片
11.Sentiment140
https://www.kaggle.com/datasets/kazanova/sentiment140
Sentiment140 數(shù)據(jù)集包含來(lái)自Twitter的160萬(wàn)條標(biāo)注推文。這些推文被標(biāo)注為正面或負(fù)面情感,主要用于訓(xùn)練和評(píng)估情感分類(lèi)模型。
12.Yelp 開(kāi)放數(shù)據(jù)集
https://www.yelp.com/dataset
Yelp數(shù)據(jù)集包含了用戶(hù)對(duì)不同業(yè)務(wù)的評(píng)論、評(píng)分、用戶(hù)信息、業(yè)務(wù)信息等。它常用于研究和開(kāi)發(fā)推薦系統(tǒng)、情感分析、文本分類(lèi)和其他NLP任務(wù)。
語(yǔ)音識(shí)別
13.LibriSpeech
https://www.openslr.org/12/
LibriSpeech 數(shù)據(jù)集包含約1000小時(shí)的英語(yǔ)語(yǔ)音數(shù)據(jù),主要用于訓(xùn)練和評(píng)估語(yǔ)音識(shí)別系統(tǒng)。
該數(shù)據(jù)集中的音頻文件經(jīng)過(guò)高質(zhì)量的預(yù)處理,并且都帶有準(zhǔn)確的文字轉(zhuǎn)錄。
圖片
14.VoxCeleb
https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
VoxCeleb 數(shù)據(jù)集包含大量名人的音頻片段,這些片段從 YouTube 視頻中提取,并經(jīng)過(guò)仔細(xì)的過(guò)濾和標(biāo)注,以確保數(shù)據(jù)的質(zhì)量和多樣性。
圖片
衛(wèi)生保健
15.Breast Cancer Wisconsin
https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
Breast Cancer Wisconsin 數(shù)據(jù)集是一個(gè)廣泛用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的醫(yī)學(xué)數(shù)據(jù)集,主要用于訓(xùn)練和評(píng)估分類(lèi)模型,以區(qū)分良性和惡性乳腺腫瘤。
該數(shù)據(jù)集包含569個(gè)樣本,每個(gè)樣本有30個(gè)特征,這些特征從細(xì)胞核的圖像中提取。
圖片
推薦系統(tǒng)
16.MovieLens
https://grouplens.org/datasets/movielens/
MovieLens 數(shù)據(jù)集是一個(gè)廣泛用于推薦系統(tǒng)研究和開(kāi)發(fā)的電影評(píng)分?jǐn)?shù)據(jù)集。該數(shù)據(jù)集由明尼蘇達(dá)大學(xué)的 GroupLens 研究小組創(chuàng)建,包含用戶(hù)對(duì)電影的評(píng)分信息。
17.Amazon Product Reviews
https://cseweb.ucsd.edu/~jmcauley/datasets.html#amazon_reviews
Amazon Product Reviews 數(shù)據(jù)集是一個(gè)廣泛用于情感分析、推薦系統(tǒng)和其他自然語(yǔ)言處理(NLP)任務(wù)的大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集包含了來(lái)自 Amazon 網(wǎng)站的用戶(hù)對(duì)各種產(chǎn)品的評(píng)論和評(píng)分信息。