適用于計算機視覺的九大開源數(shù)據(jù)集
譯文【51CTO.com快譯】使用開源數(shù)據(jù)集訓(xùn)練的計算機視覺模型
計算機視覺(CV)是人工智能(AI)和機器學(xué)習(xí)(ML)領(lǐng)域中最令人興奮的子領(lǐng)域之一。它是許多人工智能和機器學(xué)習(xí)管道的主要組成部分,它正在改變各行業(yè)領(lǐng)域,使組織能夠徹底改變機器和業(yè)務(wù)系統(tǒng)的工作方式。
從學(xué)術(shù)上來說,計算機視覺幾十年來一直是計算機科學(xué)的一個成熟領(lǐng)域,多年來,許多研究工作已經(jīng)進入該領(lǐng)域以使其變得更加完善。然而,深度神經(jīng)網(wǎng)絡(luò)的使用最近徹底改變了該領(lǐng)域,并為其加速增長提供了新的動力。
計算機視覺有多種應(yīng)用領(lǐng)域,例如:
- 自動駕駛。
- 醫(yī)學(xué)影像分析和診斷。
- 場景檢測和理解。
- 自動生成圖像標(biāo)題。
- 社交媒體上的照片/人臉標(biāo)簽。
- 家庭安全。
- 制造業(yè)和質(zhì)量控制中的缺陷識別。
本文將討論深度學(xué)習(xí)領(lǐng)域中使用的一些最流行和最有效的數(shù)據(jù)集,以訓(xùn)練先進的機器學(xué)習(xí)系統(tǒng)以執(zhí)行計算機視覺任務(wù)。
如何選擇正確的開源數(shù)據(jù)集
對機器進行圖像和視頻文件訓(xùn)練是一項非常復(fù)雜的數(shù)據(jù)密集型操作。單一圖像文件是一個多維、多兆字節(jié)的數(shù)字實體,而在整個“智能圖像分析”任務(wù)的場景中僅包含一小部分“洞察力”。
相比之下,一個大小相似的零售銷售數(shù)據(jù)表可以在計算硬件相同的情況下,對機器學(xué)習(xí)算法有更多的了解。在談?wù)摤F(xiàn)代計算機視覺管道所需的數(shù)據(jù)和計算規(guī)模時,需要記住這一事實。
因此,在幾乎所有情況下,數(shù)百張甚至數(shù)千張圖像并不能為計算機視覺任務(wù)訓(xùn)練高質(zhì)量的機器學(xué)習(xí)模型。幾乎所有現(xiàn)代計算機視覺系統(tǒng)都使用復(fù)雜的深度學(xué)習(xí)模型架構(gòu),如果沒有提供足夠數(shù)量的精心挑選的訓(xùn)練示例(即標(biāo)記圖像),將出現(xiàn)欠擬合的現(xiàn)象。因此,健壯的、可推廣的、高生產(chǎn)質(zhì)量的深度學(xué)習(xí)系統(tǒng)通常需要數(shù)百萬張精心挑選的圖像進行訓(xùn)練,這正在成為一種普遍的趨勢。
此外,對于視頻分析,考慮到從大量視頻流中獲得的視頻文件或幀的動態(tài)特性,選擇和編譯訓(xùn)練數(shù)據(jù)集的任務(wù)可能會更加復(fù)雜。
本文列出了一些最流行的圖片(由靜態(tài)圖像和視頻剪輯組成)。
計算機視覺模型的流行開源數(shù)據(jù)集
并非所有數(shù)據(jù)集都同樣適用于各種計算機視覺任務(wù)。這些常見的任務(wù)包括:
- 圖像分類。
- 對象檢測。
- 對象分割。
- 多對象注釋。
- 圖像字幕。
- 人體姿勢估計。
- 視頻幀分析。
以下將介紹流行的開源數(shù)據(jù)集,其中涵蓋了大多數(shù)類別。
1.ImageNet(最著名)
ImageNet是一項持續(xù)進行的研究工作,旨在為世界各地的研究人員提供易于訪問的圖像數(shù)據(jù)庫。它可能是全球最著名的圖像數(shù)據(jù)集,并被研究人員和學(xué)習(xí)者引用為黃金標(biāo)準(zhǔn)。
該項目的靈感來自圖像和視覺研究領(lǐng)域不斷增長的需求——對更多數(shù)據(jù)的需求。它是根據(jù)WordNet層次結(jié)構(gòu)組織的。WordNet中每個有意義的概念,可能由多個詞或短語描述,其名稱為“同義詞集”。WordNet中有10萬個以上同義詞集。同樣,ImageNet旨在提供平均1000張圖像來對每個同義詞集進行說明。
ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)是一項全球年度競賽,旨在評估算法(由大學(xué)或企業(yè)研究小組的團隊提交)以進行大規(guī)模的對象檢測和圖像分類。其中一個主要的動機是允許研究人員比較更廣泛對象的檢測進展——利用相當(dāng)昂貴的標(biāo)記工作。另一個動機是衡量計算機視覺在用于檢索和注釋的大規(guī)模圖像索引方面的進展。這是機器學(xué)習(xí)領(lǐng)域最受關(guān)注的年度競賽之一。
2.CIFAR-10(初學(xué)者)
這是計算機視覺領(lǐng)域初學(xué)者常用于訓(xùn)練機器學(xué)習(xí)和計算機視覺算法的圖像集合。它也是機器學(xué)習(xí)研究中最受歡迎的數(shù)據(jù)集之一,用于快速比較算法,因為它可以捕捉特定架構(gòu)的弱點和優(yōu)勢,而不會給訓(xùn)練和超參數(shù)調(diào)整過程帶來不合理的計算負擔(dān)。
它包含10個不同類別的6萬張32×32像素彩色圖像。這些類代表飛機、汽車、鳥類、貓、鹿、狗、青蛙、馬、輪船和卡車。
3.MegaFace和LFW(人臉識別)
野外標(biāo)記人臉(LFW)是一個人臉照片數(shù)據(jù)庫,旨在研究無約束人臉識別問題。它包含5,749位人物的13,233張圖像,是從網(wǎng)絡(luò)上抓取和檢測到的。作為額外的挑戰(zhàn),機器學(xué)習(xí)研究人員可以使用1,680位人物的圖片,這些人物在數(shù)據(jù)集中有兩張或更多不同的照片。因此,它是人臉驗證的公共基準(zhǔn),也稱為配對匹配(至少需要同一個人的兩張圖像)。
MegaFace是一個大規(guī)模開源的人臉識別訓(xùn)練數(shù)據(jù)集,是商業(yè)人臉識別問題最重要的基準(zhǔn)之一。它包括672,057名人物的4,753,320張面孔,非常適合大型深度學(xué)習(xí)架構(gòu)訓(xùn)練。所有圖像均從Flickr(雅虎的數(shù)據(jù)集)獲得并獲得共享許可。
4.IMDB-Wiki(性別和年齡識別)
它是規(guī)模最大的開源人臉圖像數(shù)據(jù)集之一,帶有用于訓(xùn)練的性別和年齡標(biāo)簽。該數(shù)據(jù)集中共有523,051張人臉圖像,其中460,723張人臉圖像來自IMDB的20,284位名人和維基百科的62,328位名人。
5.MSCoco(對象檢測和分割)
Common Objectsin CONtext(COCO)是大規(guī)模對象檢測、分割和字幕數(shù)據(jù)集。該數(shù)據(jù)集包含91種易于識別的對象類型的照片,在32. 8萬張圖像中共有250萬個標(biāo)記實例。此外,它還為更復(fù)雜的計算機視覺任務(wù)提供資源,例如多對象標(biāo)記、分割掩碼注釋、圖像字幕和關(guān)鍵點檢測。它得到了直觀的API的良好支持,該API有助于在COCO中加載、解析和可視化注釋。API支持多種注釋格式。
6.MPII人體姿勢(姿勢估計)
該數(shù)據(jù)集用于評估人體關(guān)節(jié)姿勢估計。它包括大約25,000張圖像,其中包含超過4萬名身體關(guān)節(jié)帶有注釋的人物。在這里,每張圖像都是從YouTube視頻中提取的,并提供前后未注釋的幀。總的來說,數(shù)據(jù)集涵蓋了410項人類活動,每個圖像都提供了一個活動標(biāo)簽。
7.Flickr-30k(圖像字幕)
它是一個圖像字幕語料庫,由158,915個眾包字幕組成,描述了31,783張圖像。這是之前的Flickr 8k數(shù)據(jù)集的擴展。新的圖像和字幕側(cè)重于參與日?;顒雍褪录娜宋?。
8.20BN-SOMETHING-SOMETHING(人類行為的視頻剪輯)
該數(shù)據(jù)集是大量密集標(biāo)記的視頻剪輯,顯示人類對日常物品執(zhí)行預(yù)定義的基本操作。它是由大量群組工作者創(chuàng)建的,它允許機器學(xué)習(xí)模型對物理世界中發(fā)生的基本動作進行細粒度的理解。
以下是這一數(shù)據(jù)集中捕獲的常見人類活動的子集:
9.Barkley DeepDrive(用于自動駕駛汽車訓(xùn)練)
加州大學(xué)伯克利分校的伯克利DeepDrive數(shù)據(jù)集包含超過10萬個視頻序列,其中提供各種注釋,包括對象邊界框、可駕駛區(qū)域、圖像級標(biāo)記、車道標(biāo)記和全幀實例分割。此外,該數(shù)據(jù)集在表示各種地理、環(huán)境和天氣條件方面具有廣泛的多樣性。
這對于為自動駕駛汽車訓(xùn)練強大的模型非常有用,這樣自動駕駛系統(tǒng)就不會對不斷變化的道路和駕駛條件感到困惑。
數(shù)據(jù)集的正確硬件和基準(zhǔn)測試
毋庸置疑,只是擁有這些數(shù)據(jù)集不足以構(gòu)建高質(zhì)量的機器學(xué)習(xí)系統(tǒng)或業(yè)務(wù)解決方案。需要正確選擇數(shù)據(jù)集、訓(xùn)練硬件以及巧妙的調(diào)優(yōu)和基準(zhǔn)測試策略,才能為任何學(xué)術(shù)或商業(yè)問題獲得最佳解決方案。
這就是為什么高性能GPU幾乎總是與這些數(shù)據(jù)集配對以提供所需性能的原因。
GPU的開發(fā)(主要迎合視頻游戲行業(yè))使用數(shù)千個微型處理器進行大規(guī)模并行計算。它們還具有大內(nèi)存帶寬來處理快速數(shù)據(jù)流(處理單元緩存到較慢的主內(nèi)存并返回),當(dāng)神經(jīng)網(wǎng)絡(luò)進行大量訓(xùn)練時,處理數(shù)據(jù)流需要進行更多的計算。這使它們成為處理計算機視覺任務(wù)計算負載的理想硬件。
然而,市場上有很多GPU可供選擇,并且市場上已經(jīng)提供了一些很好的基準(zhǔn)策略,以在這方面指導(dǎo)潛在用戶。一個良好的基準(zhǔn)測試必須考慮多種類型,例如深度神經(jīng)網(wǎng)絡(luò)(DNN)架構(gòu)、GPU和廣泛使用的數(shù)據(jù)集。
例如,一篇優(yōu)秀文章考慮了以下內(nèi)容:
- 架構(gòu):ResNet-152、ResNet-101、ResNet-50和ResNet-18。
- GPU:EVGA RTX2080ti、技嘉RTX2080ti和NVIDIA TITAN RTX。
- 數(shù)據(jù)集:ImageNet、CIFAR-100和CIFAR-10。
此外,必須考慮性能的多個維度才能獲得良好的基準(zhǔn)。
要考慮的GPU性能維度有三個主要指標(biāo):
(1)第二批時間:完成第二批訓(xùn)練的時間。這個數(shù)字衡量的是GPU運行足夠長的時間來加強之前的性能。沒有考慮GPU的熱節(jié)流。
(2)平均批處理時間:ImageNet中1個歷元(epoch)或CIFAR中15個歷元(epoch)后的平均批處理時間。考慮了GPU的熱節(jié)流。
(3)同步平均批處理時間:ImageNet中1個epoch或CIFAR中15個epoch后的平均批處理時間,所有GPU同時運行。這測量了所有GPU發(fā)出的熱量而導(dǎo)致系統(tǒng)中的熱節(jié)流效應(yīng)。
哪些開源數(shù)據(jù)集最適合計算機視覺模型?
本文討論了獲得高質(zhì)量、無噪聲、大規(guī)模數(shù)據(jù)集以訓(xùn)練復(fù)雜深度神經(jīng)網(wǎng)絡(luò)(DNN)模型的必要性,這些模型在計算機視覺應(yīng)用中逐漸普及。
還給出了多個開源數(shù)據(jù)集的示例,這些數(shù)據(jù)集廣泛用于各種類型的計算機視覺任務(wù)——圖像分類、姿態(tài)估計、圖像字幕、自動駕駛、對象分割等。
最后,還討論了將這些數(shù)據(jù)集與適當(dāng)?shù)挠布突鶞?zhǔn)策略配對的必要性,以確保它們在商業(yè)和研發(fā)領(lǐng)域的最佳使用。
原文標(biāo)題:Open Source Datasets for Computer Vision,作者:Kevin Vu
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】