開源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題摘要:圖像字幕是生成圖像的自然語言描述的過程。然而,大多數(shù)當(dāng)前的圖像字幕模型沒有考慮圖像的情感方面,這與其中表現(xiàn)的活動和人際關(guān)系非常相關(guān)。為了開發(fā)一種可以生成包含這些人類標(biāo)題的模型,我們使用從包括人臉在內(nèi)的圖像中提取的面部表情特征,旨在提高模型的描述能力。在這項工作中,我們提出了兩種Face-Cap模型,它以不同的方式嵌入面部表情特征,以生成圖像標(biāo)題。使用所有標(biāo)準(zhǔn)評估指標(biāo),我們的Face-Cap模型在應(yīng)用于從標(biāo)準(zhǔn)Flickr 30K數(shù)據(jù)集中提取的圖像標(biāo)題數(shù)據(jù)集時,優(yōu)于用于生成圖像標(biāo)題的***進基線模型,該數(shù)據(jù)集包含大約11K個包含面部的圖像。對字幕的分析發(fā)現(xiàn),令人驚訝的是,令人驚訝的是,字幕質(zhì)量的提高似乎并非來自添加與圖像的情感方面相關(guān)的形容詞,而是來自字幕中描述的行為的更多變化。
開源人工智能根據(jù)面部表情特征深度學(xué)
習(xí)應(yīng)用于生成圖像標(biāo)題簡介:圖像字幕系統(tǒng)旨在使用計算機視覺和自然語言處理來描述圖像的內(nèi)容。這在計算機視覺中是一項具有挑戰(zhàn)性的任務(wù),因為我們不僅要捕捉對象,還要捕捉它們之間的關(guān)系以及圖像中顯示的活動,以便生成有意義的描述。大多數(shù)***進的方法,包括深度神經(jīng)網(wǎng)絡(luò),都會生成反映圖像事實方面的字幕[3,8,12,16,20,35,37];在這個過程中,通常會忽略能夠提供更豐富和更有吸引力的圖像標(biāo)題的情感方面。在設(shè)計智能系統(tǒng)以產(chǎn)生智能,適應(yīng)性和有效結(jié)果時,需要包括識別和表達情感的情感屬性[22]。設(shè)計能夠識別情感并將其應(yīng)用于描述圖像的圖像字幕系統(tǒng)仍然是一個挑戰(zhàn)。
一些模型已將情緒或其他非事實信息納入圖像標(biāo)題[10,23,38];他們通常需要收集一個補充數(shù)據(jù)集,其中的情感詞匯來源于此,來自自然語言處理[25]的工作,其中情緒通常被描述為積極的,中立的或消極的。馬修斯等人。例如,[23]通過眾包構(gòu)建了一個情感圖像標(biāo)題數(shù)據(jù)集,其中要求說話者使用固定詞匯包括正面情緒(例如可愛的貓)或負面情緒(例如陰險的貓);他們的模型在這個和一套標(biāo)準(zhǔn)的事實標(biāo)題上進行了訓(xùn)練。甘等人。 [10]提出了一個名為StyleNet的字幕模型,用于添加樣式,包括情感,以及事實標(biāo)題;他們指定了一組預(yù)定義的樣式,例如幽默或浪漫。
這些類型的模型通常包含代表觀察者對圖像的情感的圖像描述(例如,對于圖像的正面看法而言,可愛的貓,對于負面的看法,則是陰險的貓);它們并不旨在捕捉圖像的情感內(nèi)容,如圖1所示。這種區(qū)別已在情感分析文獻中得到認(rèn)可:例如,[24]的早期工作提出了一種用于預(yù)測情緒的圖論 - 理論方法。由文本作者表達,首先刪除文本實際內(nèi)容中的正面或負面的文本片段(例如“主角試圖保護她的好名字”作為電影情節(jié)描述的一部分,哪里好具有積極的情緒)并且只留下反映作者主觀觀點的情感文本(例如“大膽,富有想象力,無法抗拒”)。在圖像的背景下,我們對與內(nèi)容相關(guān)的情感的概念感興趣。
開源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題貢獻:因此,在本文中,我們引入了一個圖像字幕模型,我們稱之為Face-Cap,以結(jié)合圖像本身的情感內(nèi)容:我們自動檢測人臉的情緒,并將衍生的面部表情特征應(yīng)用于生成圖像標(biāo)題。我們介紹了Face-Cap的兩種變體,它們以不同的方式使用這些特征來生成字幕。我們的工作貢獻是:
1.Face-Cap模型生成包含面部表情特征和情感內(nèi)容的字幕,既不使用情感圖像標(biāo)題配對數(shù)據(jù)也不使用難以收集的情緒標(biāo)題數(shù)據(jù)。據(jù)作者所知,這是***項在圖像字幕任務(wù)中應(yīng)用面部表情分析的研究。
2.一組實驗證明,這些Face-Cap模型在所有標(biāo)準(zhǔn)評估指標(biāo)上都優(yōu)于基線,這是一種***進的模型。對生成的字幕的分析表明,它們通過更好地描述圖像中執(zhí)行的操作來改進基線模型。
3.一個圖像標(biāo)題數(shù)據(jù)集,包括我們從Flickr 30K數(shù)據(jù)集[39]中提取的人臉,我們稱之為FlickrFace11K。它是公開的3,用于促進該領(lǐng)域的未來研究。
開源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題數(shù)據(jù)集:為了訓(xùn)練我們的面部表情識別模型,我們使用面部表情識別2013(FER-2013)數(shù)據(jù)集[11]。它包括野外樣本,幸福,悲傷,恐懼,驚訝,憤怒,厭惡和中立。它包含35,887個示例(28,709個用于培訓(xùn),3589個用于公開,3589個用于私人測試),通過Google搜索API收集。這些示例采用灰度級,大小為48 x 48像素。在刪除11個完全黑色的示例后,我們將FER-2013的訓(xùn)練集分為兩個部分:25,109個用于訓(xùn)練,3589個用于驗證模型。與該領(lǐng)域的其他工作[17,27,40]類似,我們使用FER-2013的私人測試集進行訓(xùn)練階段后模型的性能評估。為了與相關(guān)工作進行比較,我們不會將公共測試集應(yīng)用于培訓(xùn)或驗證模型。
為了訓(xùn)練我們的圖像字幕模型,我們提取了Flickr 30K數(shù)據(jù)集的一個子集,帶有圖像標(biāo)題[39],我們稱之為FlickrFace11K。它包含11,696個例子,包括人臉,使用基于CNN的人臉檢測算法進行檢測[18] .4我們觀察到Flickr 30K數(shù)據(jù)集是我們數(shù)據(jù)集的一個很好的來源,因為它有很大一部分樣本包括人類與其他圖像標(biāo)題數(shù)據(jù)集(如COCO數(shù)據(jù)集[4])相比,這些面。我們將FlickrFace11K樣本分為8696個進行培訓(xùn),2000個進行驗證,1000個進行測試,并將其公之于眾.5為了提取樣本的面部特征,我們使用面部預(yù)處理步驟和面部表情識別模型如下。
開源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題Face預(yù)處理:由于我們的目標(biāo)是在FER-2013上訓(xùn)練面部表情識別模型并將其用作FlickrFace11K樣本的面部表情特征提取器,我們需要使樣本與FER-2013數(shù)據(jù)一致。為此,使用面部檢測器對FlickrFace11K的面進行預(yù)處理。通過基于CNN的面部檢測算法檢測面部并從每個樣本裁剪。然后,我們將每個面轉(zhuǎn)換為灰度,并將其調(diào)整為48 x 48像素,這與FER-2013數(shù)據(jù)完全相同。
開源人工智能根據(jù)面部表情特征深度學(xué)習(xí)應(yīng)用于生成圖像標(biāo)題結(jié)論和未來的工作:在本文中,我們提出了兩種圖像字幕模型,F(xiàn)ace-Cap,它采用面部特征來描述圖像。為此,應(yīng)用面部表情識別模型從包括人臉的圖像中提取特征。使用這些特征,我們的模型被告知圖像的情感內(nèi)容,以自動調(diào)節(jié)圖像標(biāo)題的生成。與***進的基線模型相比,我們已經(jīng)使用標(biāo)準(zhǔn)評估指標(biāo)顯示了模型的有效性。生成的標(biāo)題表明Face-Cap模型成功生成圖像標(biāo)題,并在適當(dāng)?shù)臅r間結(jié)合了面部特征。對字幕的語言分析表明,描述圖像內(nèi)容的有效性得到提高,表達的可變性更大。
未來的工作可能涉及設(shè)計新的面部表情識別模型,這可以涵蓋更豐富的情感,包括混亂和好奇;并有效地應(yīng)用其相應(yīng)的面部特征來生成圖像標(biāo)題。此外,我們希望探索注入面部情緒的替代架構(gòu),如[37]的軟注射方法。