人工智能借助遷移學(xué)習(xí)利用自然圖像提取的特征提高插圖分類精度
人工智能借助遷移學(xué)習(xí)利用自然圖像提取的特征提高插圖分類精度(特約點(diǎn)評(píng):人工智能利用遷移學(xué)習(xí)利用自然圖像提取的特征提高插圖分類精度對(duì)于對(duì)深度學(xué)習(xí)的領(lǐng)域提供了新的空間,這個(gè)創(chuàng)新點(diǎn)趣說人工智能必須推薦。來自網(wǎng)友小星的推薦?。?/p>
人工智能借助遷移學(xué)習(xí)利用自然圖像提取的特征提高插圖分類精度簡介:人類識(shí)別和識(shí)別物體和紋理的能力是不容置疑的。在實(shí)踐中,無論光照,視角,風(fēng)格甚至圖形中的抽象層次如何,人類都能夠識(shí)別照片或圖片中的幾乎任何物體。但是,計(jì)算機(jī)并不像以前那樣發(fā)達(dá),直到最近,自然圖像中對(duì)象的分類精度還沒有達(dá)到人類的水平。 2012年深度學(xué)習(xí)技術(shù)的出現(xiàn)是計(jì)算機(jī)視覺領(lǐng)域的一次重大革命,特別是圖像分類,準(zhǔn)確率達(dá)到95%以上。這些技術(shù)雖然對(duì)自然圖像非常有吸引力,但幾乎不能探索我們對(duì)圖像水平的認(rèn)知的另一個(gè)層面。
這些網(wǎng)絡(luò)成功的關(guān)鍵之一是可以獲得數(shù)十萬注釋自然圖像和策劃數(shù)據(jù)集,從而可以學(xué)習(xí)非常復(fù)雜和非線性的像素統(tǒng)計(jì),關(guān)系和模式。但是,在時(shí)間和資源方面,培訓(xùn)這些網(wǎng)絡(luò)是一項(xiàng)非常昂貴的任務(wù)。因此,從頭開始訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)需要大量的注釋數(shù)據(jù)和強(qiáng)大的計(jì)算能力。為了克服這個(gè)問題,傳輸學(xué)習(xí)技術(shù)的目標(biāo)是使用現(xiàn)有的預(yù)先訓(xùn)練的體系結(jié)構(gòu),并通過用更少的數(shù)據(jù)對(duì)它們進(jìn)行再訓(xùn)練或使用更簡單的機(jī)器學(xué)習(xí)算法對(duì)其高層進(jìn)行分類來使它們對(duì)新數(shù)據(jù)集有用。
人工智能借助遷移學(xué)習(xí)利用自然圖像提取的特征提高插圖分類精度貢獻(xiàn):在這項(xiàng)工作中,我們想要探索圖像領(lǐng)域,特別是插圖圖片,用于圖像分類任務(wù)。我們依賴的直覺是,在地方一級(jí),插圖描繪的筆畫,邊緣或紋理統(tǒng)計(jì)數(shù)據(jù)與自然圖像中的數(shù)據(jù)截然不同。然而,在更高的層次上,構(gòu)成物體形狀的基本部分與其形狀保持完全一樣。我們開始使用公開可用的深度神經(jīng)網(wǎng)絡(luò)VGG-19 [SZ14],它在包含超過120萬張圖像的自然圖像數(shù)據(jù)集ImaNet [RDS * 15]上進(jìn)行了訓(xùn)練。首先,我們用我們的由內(nèi)容標(biāo)記的插圖圖像的新穎數(shù)據(jù)集來評(píng)估這種網(wǎng)絡(luò)。注意到糟糕的性能,我們提出了一種自適應(yīng)的基于層的優(yōu)化策略,該策略只修改網(wǎng)絡(luò)的幾個(gè)層,使其更好地捕獲新內(nèi)容。因此,我們建議重新開始并訓(xùn)練捕捉圖像低級(jí)特征的圖層,因?yàn)檫@些圖層與自然圖像有所不同,同時(shí)保持與高層圖層相似。
本文的貢獻(xiàn)如下:- 我們提供一個(gè)由內(nèi)容標(biāo)記的插圖圖像的新數(shù)據(jù)集。- 我們用我們的新數(shù)據(jù)集評(píng)估現(xiàn)有體系結(jié)構(gòu)[SZ14]的性能。- 我們提出了兩種基于轉(zhuǎn)移學(xué)習(xí)技術(shù)的新型模型 - 為我們的數(shù)據(jù)進(jìn)行了優(yōu)化。***種模式利用傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù),并需要少量的新數(shù)據(jù)用于培訓(xùn)。第二種優(yōu)化模型需要較大的訓(xùn)練數(shù)據(jù)集,但要利用原始網(wǎng)絡(luò)中已有的信息,因此如果我們從頭開始訓(xùn)練網(wǎng)絡(luò),則需要的數(shù)據(jù)量要少得多。- 我們展示了一小組自然圖像,盡管體系結(jié)構(gòu)發(fā)生了變化,但新網(wǎng)絡(luò)仍能夠準(zhǔn)確分類自然圖像。
人工智能利用遷移學(xué)習(xí)利用自然圖像提取的特征提高插圖分類精度方法:我們的目標(biāo)是找到一個(gè)能夠正確預(yù)測插圖和剪貼畫數(shù)據(jù)的類標(biāo)簽的模型。有許多標(biāo)準(zhǔn)數(shù)據(jù)集包含真實(shí)物體的標(biāo)記圖像,例如含有超過120萬張圖像的ImageNet數(shù)據(jù)集[RDS * 15]。然而,我們打算分析這種類似卡通形式的風(fēng)格并沒有一個(gè)合適的數(shù)據(jù)集。因此,我們首先創(chuàng)建了一個(gè)由內(nèi)容標(biāo)記的插圖圖像數(shù)據(jù)集(第4節(jié))。該數(shù)據(jù)集由兩組將用于不同任務(wù)的數(shù)據(jù)組成。嘈雜的數(shù)據(jù)集,超過180K的圖像分為826個(gè)類和策劃數(shù)據(jù)集,超過4K圖像和23個(gè)類。將策劃和噪音數(shù)據(jù)集都分成一組固定的培訓(xùn),評(píng)估和測試數(shù)據(jù)。
我們首先評(píng)估現(xiàn)有的VGG19 [SZ14]深層神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)已被證明可以在自然圖像中執(zhí)行非常好的預(yù)測類別。在第5節(jié)中,我們提供了這個(gè)架構(gòu)的總結(jié),并在數(shù)據(jù)中顯示了它的性能。由于獲得的精度很低,我們將其視為基線(基線VGG19),并提出了兩種受轉(zhuǎn)移學(xué)習(xí)技術(shù)啟發(fā)的新模型[RASC14,LLZ * 11,OBLS14]。在第6.1節(jié)中解釋的***個(gè)模型(基線VGG19 + SVM)中,我們使用SVM對(duì)從深度網(wǎng)絡(luò)VGG19提取的特征進(jìn)行分類。性能相對(duì)于以前的架構(gòu)有所提高,但仍然較低。因此,我們提出了第二個(gè)模型(優(yōu)化VGG19+ SVM),在第7節(jié)中描述,它基于兩個(gè)步驟:首先,我們使用我們的噪聲執(zhí)行自適應(yīng)的基于層的優(yōu)化數(shù)據(jù)集;然后,如前所述,我們提取優(yōu)化網(wǎng)絡(luò)的特征并使用我們的策劃數(shù)據(jù)集訓(xùn)練SVM。該模型在精度排名前1的準(zhǔn)確率為86.61%,排名前5的準(zhǔn)確率為97.21%。精度分別提高了20%和10%的精度前1和前5。
人工智能利用遷移學(xué)習(xí)利用自然圖像提取的特征提高插圖分類精度提出的模型:正如我們所示,與自然圖像相比,我們插圖數(shù)據(jù)集中深網(wǎng)VGG19獲得的準(zhǔn)確性急劇下降。主要原因是我們數(shù)據(jù)集中圖像的統(tǒng)計(jì)數(shù)據(jù)與原始圖像不同。提高數(shù)據(jù)性能的一個(gè)想法是創(chuàng)建一個(gè)新的控制網(wǎng)絡(luò)并從頭開始進(jìn)行培訓(xùn)。但是,這不是一個(gè)好主意,原因有二:首先,我們?nèi)狈τ糜谂嘤?xùn)VGG19的數(shù)據(jù)量,其次,我們將失去模型已經(jīng)學(xué)到的所有信息。為了解決這個(gè)問題,我們從之前的轉(zhuǎn)移學(xué)習(xí)[RASC14,LLZ * 11,DJV * 13]中獲得了靈感,并評(píng)估了兩個(gè)新模型。在我們的***個(gè)模型(第6.1節(jié))中,我們提取了CNN的高級(jí)特征,并將它們用作圖像描述符來訓(xùn)練支持向量機(jī)(SVM)。在我們的第二個(gè)模型(第7節(jié))中,我們另外重置了VGG19網(wǎng)絡(luò)的低層圖層,并使用我們的數(shù)據(jù)集對(duì)其進(jìn)行了優(yōu)化。高層次,理論上是為了捕捉形狀和對(duì)象,幾乎保持不變。
基線VGG19 + SVM:支持向量機(jī)(SVM)是用于分類和回歸的有監(jiān)督算法。 SVM試圖找到***超平面,該類用不同類別的樣本之間的***邊界對(duì)類別進(jìn)行分類。一種SVM使用非線性內(nèi)核將數(shù)據(jù)映射到更高維空間,然后才找到***超平面。在我們的工作中,我們使用非線性支持向量機(jī)是因?yàn)樗鼈冊(cè)谔卣鞣浅4髸r(shí)的有效性以及它們的魯棒性,因?yàn)樗鼈兛梢?**化不同數(shù)據(jù)樣本之間的邊界。此外,它不需要像深層網(wǎng)絡(luò)那么多的數(shù)據(jù),因此可以使用我們的策劃數(shù)據(jù)集進(jìn)行訓(xùn)練。
培訓(xùn)和評(píng)估我們將策劃的數(shù)據(jù)集分為以下幾類:16%的數(shù)據(jù)作為驗(yàn)證,64%作為培訓(xùn),20%作為測試數(shù)據(jù)。對(duì)于每個(gè)圖像,我們通過獲取網(wǎng)絡(luò)VGG19的第二個(gè)完全連接層來獲得特征向量。通過使用三重交叉驗(yàn)證,我們發(fā)現(xiàn)***性能是由使用歐氏距離平方的徑向基函數(shù)核(RBF)給出的,松弛變量C = 1允許在訓(xùn)練過程中出現(xiàn)一些錯(cuò)誤,分類器更具靈活性和穩(wěn)定性,γ= 0.0001,即訓(xùn)練過程中每個(gè)樣品的重量。訓(xùn)練SVM的決策函數(shù)是一對(duì)一休止(OVR),它為每個(gè)類訓(xùn)練一個(gè)分類器,找到***超平面,將該類的樣本放置在***超平面的一側(cè),而其余的一側(cè)放置在另一側(cè)不同類別的最接近樣本之間的***余量。訓(xùn)練結(jié)束后,前1名和前5名精度分別提高到62.04%和85.64%。由于RBF函數(shù)和SVM分類的強(qiáng)大的非線性映射,從VGG19獲得的圖像描述符能夠獲得更好的結(jié)果。盡管如此,該網(wǎng)絡(luò)仍然無法識(shí)別插圖圖像的低級(jí)特征,這告訴我們?nèi)绻W(wǎng)絡(luò)使用插圖圖像統(tǒng)計(jì)進(jìn)行了優(yōu)化,仍有改進(jìn)的空間。
人工智能利用遷移學(xué)習(xí)利用自然圖像提取的特征提高插圖分類精度結(jié)論:在這項(xiàng)工作中,我們探討了在兩個(gè)不同的領(lǐng)域,即自然的圖像和插圖,深層神經(jīng)網(wǎng)絡(luò)的高層次是如何轉(zhuǎn)移的。我們已經(jīng)提出了一個(gè)帶有標(biāo)簽和策劃數(shù)據(jù)的新插圖數(shù)據(jù)集。我們已經(jīng)證明,當(dāng)使用更抽象的描述(如漫畫或剪貼畫)對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行分類時(shí),為自然圖像訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)會(huì)失敗。我們提出了兩個(gè)模型,分別在原始網(wǎng)絡(luò)上提高30-60%的性能,并且我們已經(jīng)證明,我們的模型仍然能夠在照片上合理地工作。
未來的工作有許多有趣的途徑。 Curated數(shù)據(jù)集遺留了Noisy數(shù)據(jù)集中的大部分可用數(shù)據(jù),僅使用826個(gè)中的23個(gè)。這可以通過使用眾包平臺(tái)來整理我們的數(shù)據(jù)來改進(jìn),因?yàn)槟壳斑@是一個(gè)手動(dòng)過程。我們希望進(jìn)行進(jìn)一步的實(shí)驗(yàn)來詳盡評(píng)估我們網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集中的準(zhǔn)確性,因?yàn)槲覀兡壳暗膶?shí)驗(yàn)表明這些概念仍然存在于網(wǎng)絡(luò)中。一個(gè)非常有趣的問題是調(diào)查這種網(wǎng)絡(luò)中的抽象和感知,例如,找出這種模型是否自動(dòng)學(xué)習(xí)完形定律,或者預(yù)測哪些是使我們的基本邊緣或部分識(shí)別一個(gè)對(duì)象。(特約點(diǎn)評(píng):人工智能利用遷移學(xué)習(xí)利用自然圖像提取的特征提高插圖分類精度對(duì)于對(duì)深度學(xué)習(xí)的領(lǐng)域提供了新的空間,這個(gè)創(chuàng)新點(diǎn)趣說人工智能必須推薦。來自網(wǎng)友小星的推薦!)