判別式or生成式:哪一個(gè)才能代表視覺(jué)理解的未來(lái)?
一直以來(lái),視覺(jué)系統(tǒng)方面的許多基礎(chǔ)工作都以一種非常簡(jiǎn)單的方式實(shí)現(xiàn):向動(dòng)物展示圖像,測(cè)量其神經(jīng)元的反應(yīng),展示另一個(gè),然后重復(fù)。
這樣的方法建立在一種假設(shè)之上:視覺(jué)處理可以理解為一種死記硬背的輸入輸出轉(zhuǎn)換??茖W(xué)家們研究細(xì)胞時(shí),好像它們只是根據(jù)圖像中存在的視覺(jué)特征做出反應(yīng),然后可以使用這些反應(yīng)來(lái)區(qū)分不同的圖像。
雖然這種對(duì)視覺(jué)系統(tǒng)的理解在很多方面都取得了豐碩的成果,但它總是讓一些研究者產(chǎn)生懷疑。一部分人認(rèn)為,視覺(jué)系統(tǒng)的解剖結(jié)構(gòu)和動(dòng)力學(xué)研究結(jié)果表明,它不是簡(jiǎn)單地以「自下而上」的方式做出反應(yīng)。相反,它可能會(huì)基于一個(gè)反映世界運(yùn)行模式的模型生成一些反應(yīng)。
這種「判別式(discriminative)」與「生成式(generative)」視覺(jué)方法之間的爭(zhēng)論已經(jīng)持續(xù)了數(shù)十年。盡管這兩種模型都旨在解釋視覺(jué)處理過(guò)程,但這兩種方法源于不同的哲學(xué)和數(shù)學(xué)傳統(tǒng)。這種狀況導(dǎo)致的后果是,不同的研究人員只使用他們自己喜歡的方法,而不是合作,因此在這兩種范式之間產(chǎn)生了一條鴻溝。
近年來(lái),計(jì)算機(jī)視覺(jué)和計(jì)算神經(jīng)科學(xué)的進(jìn)步都表明了這種二元?jiǎng)澐址椒ǖ木窒扌裕苿?dòng)了更廣泛的視覺(jué)處理建模的發(fā)展。這就需要雙方的代表走到一起,理清各自的觀點(diǎn)以及雙方的共識(shí)和分歧所在。
2021 年 9 月,在虛擬認(rèn)知計(jì)算神經(jīng)科學(xué) (CCN) 會(huì)議的「生成對(duì)抗協(xié)作(GAC)」開(kāi)幕活動(dòng)上,研究人員提交了關(guān)于這一主題的提案。
「生成對(duì)抗協(xié)作」是 CCN 在 2020 年發(fā)起的一項(xiàng)流程,旨在讓研究者明確、有效地提出科學(xué)上的分歧。研究人員可以向 CCN 提交一個(gè)有爭(zhēng)議的主題提案,少數(shù)提案會(huì)被選中,進(jìn)入 GAC 活動(dòng)的討論范圍。次年,GAC 組織者會(huì)提交一份立場(chǎng)論文,列出這些主題領(lǐng)域的進(jìn)展計(jì)劃,并在當(dāng)年的會(huì)議上展示該進(jìn)展。
2021 年的 GAC 有關(guān)于視覺(jué)系統(tǒng)中的生成和判別模型的主題,由 11 名研究人員組成了一個(gè)團(tuán)隊(duì)。有些人使用判別方法,有些人使用生成方法,但所有人都對(duì)探索兩者之間的交集感興趣。根據(jù)他們的提議,這個(gè)活動(dòng)旨在確定「我們的知識(shí)遺產(chǎn)是否過(guò)度地分化了我們對(duì)視覺(jué)算法的直覺(jué),使我們陷入了錯(cuò)誤的二分法之中?!?/span>
「簡(jiǎn)單快速」與「靈活慢速」
為了構(gòu)建辯論框架,首先有必要知道什么是判別系統(tǒng)和生成系統(tǒng)。但也許這就是第一個(gè)分歧點(diǎn)。
在統(tǒng)計(jì)領(lǐng)域,判別模型和生成模型有簡(jiǎn)單的定義。判別模型是在給定觀察結(jié)果的情況下計(jì)算潛在變量或潛在原因的概率的模型。就視覺(jué)處理而言,這些潛在變量就是世界上的物體,而觀察結(jié)果就是撞擊視網(wǎng)膜的光。例如,模型會(huì)對(duì)圖像中的像素進(jìn)行一些計(jì)算,以確定哪些對(duì)象最有可能存在。相反,生成模型是計(jì)算潛在變量和觀察結(jié)果的聯(lián)合概率。這需要知道某些物體在一般情況下存在的可能性,而不僅僅是它們?cè)诮o定圖像中的可能性。
雖然這些不同概率分布的計(jì)算在技術(shù)上完全不同,但當(dāng)這些計(jì)算映射到大腦時(shí),兩者之間的界限開(kāi)始變得模糊?!溉绻阕屑?xì)觀察,一切都會(huì)崩潰,」哥倫比亞大學(xué)神經(jīng)科學(xué)家、GAC 發(fā)言人 Niko Kriegeskorte 說(shuō)。該領(lǐng)域缺乏對(duì)生成模型和判別模型的嚴(yán)格定義,神經(jīng)科學(xué)研究文獻(xiàn)中出現(xiàn)的內(nèi)容則更好地被描述為一組松散的關(guān)聯(lián)。
代表判別一面的模型往往是前饋的、簡(jiǎn)單的和快速的。例如,深度前饋卷積神經(jīng)網(wǎng)絡(luò)就是判別處理的典范。這些模型通常以有監(jiān)督的方式進(jìn)行訓(xùn)練:它們學(xué)習(xí)將圖像映射到標(biāo)簽,例如學(xué)習(xí)對(duì)貓和狗的圖像進(jìn)行分類。生成的模型可以接收新圖像并快速標(biāo)記它。像這類網(wǎng)絡(luò)這樣的判別系統(tǒng)通常以自下而上的方式工作,形成對(duì)其直接輸入的簡(jiǎn)單響應(yīng)。由于它們的訓(xùn)練方式,它們也被認(rèn)為專門用于特定任務(wù),例如物體識(shí)別。
相比之下,生成模型速度很慢,但它們也更靈活、嚴(yán)謹(jǐn),且更具表現(xiàn)力。它們通常依賴于無(wú)監(jiān)督的訓(xùn)練方法,目的是獲得對(duì)世界統(tǒng)計(jì)數(shù)據(jù)和結(jié)構(gòu)的基本了解,然后將其用于預(yù)測(cè)。例如,在貓比狗更常見(jiàn)的世界中,生成模型可能會(huì)使用爪子的視覺(jué)景象來(lái)預(yù)測(cè)長(zhǎng)胡須也是存在的,并最終得出圖像中有貓的結(jié)論。在結(jié)構(gòu)上,這些模型更有可能具有循環(huán)連接(recurrent connection),特別是來(lái)自更高視覺(jué)區(qū)域或?qū)㈩A(yù)測(cè)信號(hào)傳送到視覺(jué)系統(tǒng)的額葉皮層的自上而下的連接。它們也更有可能用概率分布來(lái)表示信息,這可能導(dǎo)致與任何給定視覺(jué)感知相關(guān)的不確定性。
科學(xué)家們有理由相信這兩種過(guò)程都可能在大腦中發(fā)揮作用。生成方法的支持者指出其直觀的吸引力和與內(nèi)?。╥ntrospection)的一致性。畢竟,我們能以心理意象和夢(mèng)境的形式產(chǎn)生視覺(jué)感知;如果沒(méi)有任何自上而下的影響或內(nèi)部世界模型,這種現(xiàn)象是不可能發(fā)生的。學(xué)習(xí)有關(guān)世界如何運(yùn)行的一般原則也可以使生成系統(tǒng)更適應(yīng)新環(huán)境。
在 GAC 活動(dòng)期間,麻省理工學(xué)院的神經(jīng)科學(xué)家和西蒙斯全球大腦合作組織 (SCGB) 的研究員 Josh Tenenbaum 在他的演講視頻中應(yīng)用了圖像過(guò)濾器來(lái)說(shuō)明這一點(diǎn):因?yàn)槲覀兊囊曈X(jué)系統(tǒng)知道視頻可以使用不同的視覺(jué)效果進(jìn)行過(guò)濾,例如顏色和對(duì)比度的變化,所以即使它們對(duì)我們來(lái)說(shuō)是新的,我們還是能夠識(shí)別應(yīng)用了這種效果的圖像內(nèi)容。
判別式方法的支持者指出,它在解釋神經(jīng)數(shù)據(jù)方面取得了切實(shí)的成功。經(jīng)過(guò)訓(xùn)練以對(duì)圖像進(jìn)行分類的深度卷積神經(jīng)網(wǎng)絡(luò)提供了一些最佳模型,用于預(yù)測(cè)響應(yīng)復(fù)雜視覺(jué)輸入的真實(shí)神經(jīng)活動(dòng)。我們也知道,視覺(jué)系統(tǒng)的前饋路徑可以非??焖俚貙?shí)現(xiàn)對(duì)象分類,這與判別模型是一致的。
這兩種模式處于不同的發(fā)展階段,很難比較它們的優(yōu)勢(shì)。當(dāng)前的判別模型可以在實(shí)際用途中處理圖像,這讓它比生成模型更具優(yōu)勢(shì)。然而,這可能更多地反映了研究人員可以在計(jì)算機(jī)上做的事情,而不是大腦可以做的事情。目前,生成模型很難訓(xùn)練和構(gòu)建,并且只能運(yùn)行在玩具問(wèn)題上,而不是視覺(jué)系統(tǒng)面臨的真實(shí)挑戰(zhàn)。如果沒(méi)有像今天的判別模型一樣擅長(zhǎng)圖像處理的模型,生成方法就沒(méi)有機(jī)會(huì)在神經(jīng)活動(dòng)的定量預(yù)測(cè)上擊敗判別模型。它們之間的這種對(duì)比有點(diǎn)像將今天的汽車與自動(dòng)駕駛汽車的對(duì)比。自動(dòng)駕駛汽車可能有一些不錯(cuò)的功能,但如果你今天需要四處奔走,它們不會(huì)有太大幫助。
「歸根結(jié)底,你必須有一個(gè)模型來(lái)測(cè)試,」麻省理工學(xué)院的神經(jīng)科學(xué)家和 SCGB 研究員 Jim DiCarlo 說(shuō)。在 GAC 活動(dòng)中,代表判別一方的 DiCarlo 展示了在目標(biāo)識(shí)別上訓(xùn)練的判別模型預(yù)測(cè)神經(jīng)活動(dòng)的強(qiáng)大能力。「一旦有人建立了一個(gè)新的圖像計(jì)算模型,只有當(dāng)時(shí)實(shí)驗(yàn)數(shù)據(jù)才能用來(lái)判斷該模型相對(duì)于其他模型的準(zhǔn)確性。」
在某種程度上,這從工程的維度減少了關(guān)于生成方法與判別方法的爭(zhēng)論。即使生成方法具有很多直觀的積極意義,研究人員仍然需要讓它們?cè)趯?shí)踐中發(fā)揮作用,以便與大腦活動(dòng)進(jìn)行大規(guī)模比較。目前,它們還不能。但生成模型也并不總是處于劣勢(shì)。鑒于其種種特性,尤其是它們?cè)跊](méi)有太多標(biāo)記數(shù)據(jù)的情況下進(jìn)行訓(xùn)練的能力,機(jī)器學(xué)習(xí)研究人員希望它們?cè)谖磥?lái)變得有用。
「重要的是,我們不要將我們認(rèn)為容易或現(xiàn)在可以做的事情,與大腦可以做的事情混為一談?!沽_切斯特大學(xué)的神經(jīng)科學(xué)家 Ralf Haefner 在活動(dòng)中說(shuō)。
探索的十字路口
正如 GAC 小組成員指出的那樣,許多模型并不完全適合某個(gè)類別或其他類別。循環(huán)判別模型是存在的,一些生成模型也可以很快,諸如此類。哥倫比亞大學(xué)的神經(jīng)科學(xué)家 Benjamin Peters 在討論中說(shuō),強(qiáng)制讓大腦被統(tǒng)計(jì)學(xué)家和工程師定義的盒子所框住是有風(fēng)險(xiǎn)的。「我們不應(yīng)該過(guò)于刻板,而應(yīng)該從算法中汲取靈感?!?/span>
例如,視覺(jué)系統(tǒng)可以使用判別組件來(lái)實(shí)現(xiàn)快速和輕松的視覺(jué)感知,但仍包含生成元素以實(shí)現(xiàn)更深層的功能?;蛘?,一個(gè)內(nèi)置的生成模型可以利用它對(duì)世界的預(yù)測(cè),來(lái)幫助為大腦的判別部分提供訓(xùn)練數(shù)據(jù)。哈佛大學(xué)的神經(jīng)科學(xué)家 Talia Konkle 在她的演講中主張承認(rèn)感知和認(rèn)知之間的分離,感知是一種判別過(guò)程,而認(rèn)知是一種更具生成性的過(guò)程。
一些混合方法在機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)很流行。例如,在對(duì)比學(xué)習(xí)這種訓(xùn)練方式中,網(wǎng)絡(luò)學(xué)習(xí)對(duì)相似的事物進(jìn)行分組(例如同一圖像的不同剪裁片段),并區(qū)分不同的事物。這種方法具有生成組件 —— 訓(xùn)練不需要顯式的目標(biāo)標(biāo)簽,它創(chuàng)建的表示可以捕獲數(shù)據(jù)中大量的相關(guān)統(tǒng)計(jì)信息。同時(shí),它也能很好地應(yīng)用于判別模型的典型前饋結(jié)構(gòu)。它確實(shí)學(xué)會(huì)了區(qū)分相似和不同的圖像。
鑒于這些模型可能屬于同一個(gè)范圍,一些研究人員質(zhì)疑關(guān)注二元?jiǎng)澐质欠裼幸饬x?!高@些真的是我們想要收斂的項(xiàng)嗎?」DeepMind 的 Kim Stachenfeld 問(wèn)道。科學(xué)家和工程師們承認(rèn),生成式處理和判別式處理之間的明確區(qū)分對(duì)于構(gòu)建一個(gè)有效的系統(tǒng)來(lái)說(shuō)并不是必需的。這種區(qū)分也不是理解大腦所必需的?!溉绻阏J(rèn)為這是一個(gè)非此即彼的問(wèn)題,那你就錯(cuò)失了重點(diǎn),」Kriegeskorte 說(shuō)?!肝也淮_定 10 到 20 年后我們是否還會(huì)在這種二元?jiǎng)澐址椒ㄖ锌紤]這個(gè)問(wèn)題。」
GAC 的部分目的是探索判別式與生成式模型之間的分歧,以此作為推動(dòng)該領(lǐng)域向前發(fā)展的一種手段。
Stachenfeld 認(rèn)為,這種嘗試是有用的,即將視覺(jué)系統(tǒng)的方法組織到兩個(gè)陣營(yíng)中,然后「看看還剩下什么」,從兩個(gè)陣營(yíng)之外的東西可以看出這個(gè)領(lǐng)域還需要什么樣的新術(shù)語(yǔ)和新想法。其他人也認(rèn)為,這次討論有助于闡明哪些特征對(duì)于每種類型的建模方法是真正必要的,以及如何在大腦中考慮每種思路的證據(jù)。Kriegeskorte 指出,在使用這些模型的術(shù)語(yǔ)時(shí),他現(xiàn)在「避免了過(guò)去經(jīng)常犯的愚蠢錯(cuò)誤」。
這些概念上的進(jìn)步是否重要?真正的考驗(yàn)將是它們對(duì)實(shí)驗(yàn)的影響程度。Kriegeskorte 表示,實(shí)驗(yàn)設(shè)計(jì)是一個(gè)很難取得真正進(jìn)展的領(lǐng)域。
加州理工學(xué)院的神經(jīng)科學(xué)家和 SCGB 研究員 Doris Tsao 提出了一種實(shí)驗(yàn)途徑:分離神經(jīng)系統(tǒng)的生成組件,并在沒(méi)有關(guān)于當(dāng)前世界狀態(tài)的前饋輸入的情況下研究其對(duì)神經(jīng)活動(dòng)的影響。先前對(duì)胼胝體(連接左右大腦半球的橫行神經(jīng)纖維束)病變患者的研究提供了一些提示。在兩個(gè)半球之間通路的一部分被切斷的情況下,研究人員通過(guò)左眼向右半球展示「騎士」之類的詞,會(huì)導(dǎo)致患者(借助左半球反饋連接的影響)描述騎士的視覺(jué)場(chǎng)景,即使沒(méi)有任何視覺(jué)刺激或有意識(shí)地意識(shí)到這個(gè)詞。Tsao 認(rèn)為,在動(dòng)物身上進(jìn)行的類似實(shí)驗(yàn)可以幫助確定自上而下的生成路徑,這些路徑負(fù)責(zé)讓人聯(lián)想到這種圖像。然而,對(duì)于生成系統(tǒng)的人工隔離是否有助于闡明其在正常情況下的功能,GAC 參與者存在分歧。
大多數(shù)參與者都同意需要更多關(guān)注大腦生成能力的實(shí)驗(yàn)。賓夕法尼亞大學(xué)的神經(jīng)科學(xué)家和 SCGB 調(diào)查員 Nicole Rust 提出了研究視覺(jué)預(yù)測(cè)的論點(diǎn),例如預(yù)測(cè)視頻中接下來(lái)會(huì)發(fā)生什么的能力。DiCarlo 說(shuō),受到生成處理優(yōu)點(diǎn)的啟發(fā),他打算做更多的實(shí)驗(yàn)。
在接下來(lái)的一年里,該小組將繼續(xù)討論推進(jìn)研究的具體步驟,并通過(guò)出版物和活動(dòng)與更廣泛的社區(qū)分享他們的進(jìn)展。