自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

深度學(xué)習(xí)中常用的開(kāi)源數(shù)據(jù)集

作者：程序員小寒 2024-07-11 11:07:41

人工智能深度學(xué)習(xí)

Amazon Product Reviews 數(shù)據(jù)集是一個(gè)廣泛用于情感分析、推薦系統(tǒng)和其他自然語(yǔ)言處理（NLP）任務(wù)的大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集包含了來(lái)自 Amazon 網(wǎng)站的用戶(hù)對(duì)各種產(chǎn)品的評(píng)論和評(píng)分信息。?

圖像分類(lèi)

1.MNIST

http://yann.lecun.com/exdb/mnist/

MNIST 數(shù)據(jù)集是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)領(lǐng)域中最著名的數(shù)據(jù)集之一，常用于訓(xùn)練各種圖像處理系統(tǒng)。

MNIST 數(shù)據(jù)集包含了 70,000 張小型的黑白圖像，每張圖像的大小是 28x28 像素。每個(gè)圖像都是手寫(xiě)數(shù)字（0到9）的一個(gè)實(shí)例。

它非常適合初學(xué)者練習(xí)圖像分類(lèi)技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)（CNN）等算法。

圖片

2.CIFAR-10

CIFAR-10 數(shù)據(jù)集是另一種在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)研究領(lǐng)域廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集。

https://www.cs.toronto.edu/~kriz/cifar.html

它由加拿大高級(jí)研究院（Canadian Institute For Advanced Research, CIFAR）發(fā)布，因此得名 CIFAR。CIFAR-10 特別適用于開(kāi)發(fā)和測(cè)試圖像識(shí)別算法。

CIFAR-10 包含 60,000 張 32x32 像素的彩色圖像，這些圖像被分為 10 個(gè)類(lèi)別，每個(gè)類(lèi)別各 6,000 張圖像。這些類(lèi)別包括：飛機(jī)、汽車(chē)、鳥(niǎo)、貓、鹿、狗、青蛙、馬、船和卡車(chē)。

圖片

3.ImageNet

https://www.image-net.org/

ImageNet 數(shù)據(jù)集是一個(gè)大規(guī)模的圖像數(shù)據(jù)集，廣泛用于計(jì)算機(jī)視覺(jué)研究和各種圖像處理算法的訓(xùn)練和測(cè)試。

這個(gè)數(shù)據(jù)集由斯坦福大學(xué)的研究人員啟動(dòng)和維護(hù)，包含超過(guò) 1400 萬(wàn)張圖片和超過(guò) 20,000 個(gè)類(lèi)別。

它用于大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)和訓(xùn)練深度學(xué)習(xí)模型。

圖片

4.fashion-mnist

Fashion-MNIST 數(shù)據(jù)集是由 Zalando（一家德國(guó)的時(shí)尚科技公司）發(fā)布的一個(gè)圖像數(shù)據(jù)集，旨在作為機(jī)器學(xué)習(xí)研究中經(jīng)典的 MNIST 手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集的直接替代品。

Fashion-MNIST 包含 70,000 張 28x28 像素的灰度圖像，這些圖像分為 10 個(gè)類(lèi)別，每個(gè)類(lèi)別有 7,000 張圖像，這些類(lèi)別包括：T恤/上衣、褲子、套頭衫、連衣裙、外套、涼鞋、襯衫、運(yùn)動(dòng)鞋、包和踝靴。

圖片

5.CelebA

https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

CelebA 數(shù)據(jù)集是一個(gè)大型的人臉屬性數(shù)據(jù)集，廣泛用于計(jì)算機(jī)視覺(jué)研究中，特別是在面部識(shí)別、面部屬性識(shí)別和面部編輯等領(lǐng)域。

這個(gè)數(shù)據(jù)集由香港中文大學(xué)的研究者開(kāi)發(fā)和維護(hù)，CelebA 包含超過(guò) 200,000 張名人面部的圖像，覆蓋了大約 10,000 名不同的名人，每張圖像都標(biāo)有 40 種不同的屬性（如發(fā)型、帽子、眼鏡、笑容等），以及 5 個(gè)關(guān)鍵點(diǎn)位置（眼睛、鼻子、嘴巴）的標(biāo)記。

圖片

自然語(yǔ)言處理

6.IMDB 評(píng)論

https://ai.stanford.edu/~amaas/data/sentiment/)

IMDB 評(píng)論數(shù)據(jù)集（Internet Movie Database Review Dataset）是一個(gè)廣泛用于自然語(yǔ)言處理（NLP）和情感分析研究的數(shù)據(jù)集。

它包含來(lái)自 IMDB 網(wǎng)站的 50,000條電影評(píng)論，分為訓(xùn)練集和測(cè)試集各 25,000 條，每個(gè)評(píng)論都是一個(gè)文本片段，并且?guī)в幸粋€(gè)標(biāo)簽，表示該評(píng)論是正面的（positive）還是負(fù)面的（negative）。

圖片

7.20個(gè)新聞組

https://www.kaggle.com/datasets/crawford/20-newsgroups

20 個(gè)新聞組數(shù)據(jù)集由 Ken Lang 編制，包含約 18000 個(gè)新聞組文檔，分布在 20 個(gè)不同的新聞組。

它常用于文本分類(lèi)和聚類(lèi)任務(wù)。

圖片

8.SQuAD

https://rajpurkar.github.io/SQuAD-explorer/

斯坦福問(wèn)答數(shù)據(jù)集 (SQuAD) 是一個(gè)閱讀理解數(shù)據(jù)集，由眾包工作者針對(duì)一系列維基百科文章提出的問(wèn)題組成，其中每個(gè)問(wèn)題的答案都是來(lái)自相應(yīng)段落的一段文本。斯坦福問(wèn)答數(shù)據(jù)集包含 100,000 多個(gè)用于機(jī)器理解的問(wèn)題。

圖片

9.GLUE

https://gluebenchmark.com/

GLUE (General Language Understanding Evaluation) 是一個(gè)用于評(píng)估自然語(yǔ)言處理（NLP）模型在廣泛語(yǔ)言理解任務(wù)上的性能的基準(zhǔn)數(shù)據(jù)集。

GLUE 旨在提供一個(gè)綜合性的評(píng)估框架，通過(guò)多個(gè)不同的NLP任務(wù)來(lái)測(cè)試模型的廣泛性和魯棒性。

10.COCO

https://cocodataset.org/#home

COCO 數(shù)據(jù)集是一個(gè)用于對(duì)象檢測(cè)、分割和圖像字幕生成的廣泛使用的基準(zhǔn)數(shù)據(jù)集。

它由微軟研究院發(fā)布，旨在提供豐富的標(biāo)注數(shù)據(jù)，用于訓(xùn)練和評(píng)估計(jì)算機(jī)視覺(jué)模型。

圖片

11.Sentiment140

https://www.kaggle.com/datasets/kazanova/sentiment140

Sentiment140 數(shù)據(jù)集包含來(lái)自Twitter的160萬(wàn)條標(biāo)注推文。這些推文被標(biāo)注為正面或負(fù)面情感，主要用于訓(xùn)練和評(píng)估情感分類(lèi)模型。

12.Yelp 開(kāi)放數(shù)據(jù)集

https://www.yelp.com/dataset

Yelp數(shù)據(jù)集包含了用戶(hù)對(duì)不同業(yè)務(wù)的評(píng)論、評(píng)分、用戶(hù)信息、業(yè)務(wù)信息等。它常用于研究和開(kāi)發(fā)推薦系統(tǒng)、情感分析、文本分類(lèi)和其他NLP任務(wù)。

語(yǔ)音識(shí)別

13.LibriSpeech

https://www.openslr.org/12/

LibriSpeech 數(shù)據(jù)集包含約1000小時(shí)的英語(yǔ)語(yǔ)音數(shù)據(jù)，主要用于訓(xùn)練和評(píng)估語(yǔ)音識(shí)別系統(tǒng)。

該數(shù)據(jù)集中的音頻文件經(jīng)過(guò)高質(zhì)量的預(yù)處理，并且都帶有準(zhǔn)確的文字轉(zhuǎn)錄。

圖片

14.VoxCeleb

https://www.robots.ox.ac.uk/~vgg/data/voxceleb/

VoxCeleb 數(shù)據(jù)集包含大量名人的音頻片段，這些片段從 YouTube 視頻中提取，并經(jīng)過(guò)仔細(xì)的過(guò)濾和標(biāo)注，以確保數(shù)據(jù)的質(zhì)量和多樣性。

圖片

衛(wèi)生保健

15.Breast Cancer Wisconsin

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

Breast Cancer Wisconsin 數(shù)據(jù)集是一個(gè)廣泛用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的醫(yī)學(xué)數(shù)據(jù)集，主要用于訓(xùn)練和評(píng)估分類(lèi)模型，以區(qū)分良性和惡性乳腺腫瘤。

該數(shù)據(jù)集包含569個(gè)樣本，每個(gè)樣本有30個(gè)特征，這些特征從細(xì)胞核的圖像中提取。

圖片

推薦系統(tǒng)

16.MovieLens

https://grouplens.org/datasets/movielens/

MovieLens 數(shù)據(jù)集是一個(gè)廣泛用于推薦系統(tǒng)研究和開(kāi)發(fā)的電影評(píng)分?jǐn)?shù)據(jù)集。該數(shù)據(jù)集由明尼蘇達(dá)大學(xué)的 GroupLens 研究小組創(chuàng)建，包含用戶(hù)對(duì)電影的評(píng)分信息。

17.Amazon Product Reviews

https://cseweb.ucsd.edu/~jmcauley/datasets.html#amazon_reviews

Amazon Product Reviews 數(shù)據(jù)集是一個(gè)廣泛用于情感分析、推薦系統(tǒng)和其他自然語(yǔ)言處理（NLP）任務(wù)的大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集包含了來(lái)自 Amazon 網(wǎng)站的用戶(hù)對(duì)各種產(chǎn)品的評(píng)論和評(píng)分信息。

責(zé)任編輯：武曉燕來(lái)源：程序員學(xué)長(zhǎng)

深度學(xué)習(xí)開(kāi)源數(shù)據(jù)集

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)