讓AI認(rèn)出「生狗」?Facebook構(gòu)建能感知變化算子的人工智能
一條狗,即使是之前從未見過(guò)的品種、顏色,我們也能一眼認(rèn)出它。
對(duì)周遭任何變化的感知是人類與生俱來(lái)的能力。
但是人工智能系統(tǒng)就不一樣了,即使級(jí)別SOTA,能完成無(wú)數(shù)人類完成不了的任務(wù),但也有很多對(duì)人類來(lái)說(shuō)輕而易舉的事情,它卻搞不定,比如,讓金毛換個(gè)角度:正面、側(cè)面、前面、后面,人工智能可能會(huì)識(shí)別地很掙扎。
深度學(xué)習(xí)模型擅長(zhǎng)解釋像素和標(biāo)簽之間的統(tǒng)計(jì)模式,但卻很難通過(guò)許多潛在的自然變化正確識(shí)別對(duì)象。
那是掃雪機(jī)在路上掃雪嗎?還是一輛校車側(cè)翻了?
上圖是根據(jù)M.A. Alcorn等人的 "Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects"繪制,顯示了一個(gè)深度神經(jīng)網(wǎng)絡(luò)將一輛公共汽車錯(cuò)誤地分類為掃雪車。
人類可以瞬間知道,但是顏色、大小和透視等因素使情況復(fù)雜化,增加了人工智能模型的預(yù)測(cè)難度。
Facebook AI一直在探索如何更好地捕捉自然變化,在這方面,傳統(tǒng)解決方案有很大局限性,即所謂的解糾纏(disentanglement)。我們最近還提出了等變化移位算子(equivariant shift operator)的概念,這是一種替代解的概念證明,可以幫助模型理解通過(guò)模擬最常見的變換,物體可能會(huì)發(fā)生怎樣的變化。
目前,F(xiàn)acebook AI在這方面的工作主要是理論性的,但是對(duì)于深度學(xué)習(xí)模型,特別是計(jì)算機(jī)視覺潛力巨大: 增加了可解釋性和準(zhǔn)確性,即使在小數(shù)據(jù)集上訓(xùn)練也有更好的性能,并提高了泛化能力。Facebook AI希望這些貢獻(xiàn)能夠使計(jì)算機(jī)視覺向前推進(jìn)一步,更好地理解視覺世界的復(fù)雜性。
現(xiàn)行方法的局限
目前的解糾纏方法試圖通過(guò)將模型中的每個(gè)因子編碼到模型內(nèi)部表示的一個(gè)單獨(dú)的子空間中,來(lái)學(xué)習(xí)模型中對(duì)象的基本變換。
例如,解糾纏可能將狗圖像的數(shù)據(jù)集編碼為姿態(tài)、顏色和品種子空間。
這種方法在識(shí)別剛性數(shù)據(jù)集的變化因素方面很有優(yōu)勢(shì),比如一個(gè)單一的 MNIST 數(shù)字或者一個(gè)單一的對(duì)象,比如一把椅子,但是我們已經(jīng)發(fā)現(xiàn),在多個(gè)分類中,解糾纏的表現(xiàn)很差。
想象一下多個(gè)旋轉(zhuǎn)的形狀,比如三角形和正方形。解糾纏模型試圖將物體的形狀和方向這兩個(gè)變化因素分離成兩個(gè)變化因素。
下圖說(shuō)明了傳統(tǒng)的解糾纏是無(wú)法在多個(gè)形狀的數(shù)據(jù)集中孤立旋轉(zhuǎn)的。我們期望高亮顯示的形狀會(huì)旋轉(zhuǎn),但是由于解糾纏失敗,形狀仍然是固定的。
解糾纏還帶來(lái)了拓?fù)淙毕荩@是一系列眾多變換中的另一個(gè)問(wèn)題。拓?fù)淙毕葸`背連續(xù)性——深度學(xué)習(xí)模型的本質(zhì)屬性。如果沒(méi)有連續(xù)性,深度學(xué)習(xí)模型可能很難有效地學(xué)習(xí)數(shù)據(jù)中的模式。
想象一下正三角形的旋轉(zhuǎn)。旋轉(zhuǎn)120度的正三角形與原來(lái)的三角形無(wú)法區(qū)分,導(dǎo)致在方向空間中有相同的表示。然而,通過(guò)在三角形的一個(gè)角上加一個(gè)無(wú)窮小的點(diǎn),表示變得可辨別,違反了連續(xù)性。附近的圖像映射到相距較遠(yuǎn)的圖像。Facebook AI的研究還表明,拓?fù)淙毕莩霈F(xiàn)在非對(duì)稱形狀和許多其他常見的變換中。
利用等變化算子揭示變化因子
與其將每個(gè)轉(zhuǎn)換限制為一個(gè)表示的一個(gè)組件,如果轉(zhuǎn)換可以改變整個(gè)表示呢?這種方法的目標(biāo)是發(fā)現(xiàn)能夠操縱圖像及其表示的操作符ーー每個(gè)變化因子的一個(gè)操作符。這些被稱為等變量。
有一個(gè)數(shù)學(xué)分支「群論」可以教我們應(yīng)用等變化算子的很多知識(shí)。它表明,一個(gè)直觀的方式來(lái)理解變化因素是將他們模擬為一組轉(zhuǎn)換。例如,一個(gè)三角形的旋轉(zhuǎn)有一個(gè)組的結(jié)構(gòu): 90度旋轉(zhuǎn)和30度旋轉(zhuǎn)結(jié)合起來(lái)產(chǎn)生120度旋轉(zhuǎn)。
Facebook AI利用這些想法來(lái)識(shí)別傳統(tǒng)解糾纏的缺點(diǎn),并確定如何訓(xùn)練等變化算子來(lái)解糾纏。我們提出了一個(gè)等變化算子,稱為移位算子。這是一個(gè)矩陣,其塊體模仿了常見變換的組結(jié)構(gòu)--旋轉(zhuǎn)、平移和重縮放。然后在原始圖像和它們的轉(zhuǎn)換上訓(xùn)練一個(gè)人工智能模型。
這樣就會(huì)發(fā)現(xiàn),即使在包含多個(gè)類的數(shù)據(jù)集中,移位算子也能成功地學(xué)習(xí)變換--這正是傳統(tǒng)解糾纏經(jīng)常失敗的條件。
未來(lái)
基于群論的等變模型極大地?cái)U(kuò)展了解糾纏的研究范圍,現(xiàn)有的模型依賴于強(qiáng)有力的監(jiān)督,例如先驗(yàn)地理解利益的轉(zhuǎn)化,并在模型中加以實(shí)施。
但是,如何使用最少量的監(jiān)督發(fā)現(xiàn)一個(gè)數(shù)據(jù)集的對(duì)稱性?以前在這個(gè)領(lǐng)域的研究主要應(yīng)用于合成數(shù)據(jù),所以當(dāng)他們面對(duì)不尋常的觀察時(shí),如一輛公共汽車側(cè)面或一只狗的嘴里有一個(gè)超大的玩具時(shí),基本對(duì)稱性的知識(shí)可以使模型更加可靠。
人類通過(guò)直觀地將不明物體與以前見過(guò)的物體進(jìn)行比較來(lái)識(shí)別不明物體。模型可以被訓(xùn)練成與圖像子部分的變換相等,而且關(guān)鍵的是,當(dāng)遇到未知對(duì)象時(shí),模型可以重新組合子部分。
最后,用基于群論的模型處理真實(shí)數(shù)據(jù)集是具有挑戰(zhàn)性的,因?yàn)槿后w結(jié)構(gòu)沒(méi)有得到完全尊重。例如,當(dāng)在非均勻背景中旋轉(zhuǎn)一個(gè)物體時(shí),有許多方法可以推斷出旋轉(zhuǎn)后出現(xiàn)的像素值。將這個(gè)想法擴(kuò)展到更真實(shí)的設(shè)置和數(shù)據(jù)集,例如沒(méi)有人工增強(qiáng)的圖像,可能會(huì)被證明是一個(gè)有價(jià)值的方法。