OpenAI Preparedness團(tuán)隊(duì)首席Aleksander Madry:機(jī)器學(xué)習(xí)模型的內(nèi)部計(jì)算如何將輸入轉(zhuǎn)化為預(yù)測(cè)?
考慮一個(gè)標(biāo)準(zhǔn)的ResNet50模型,該模型經(jīng)過(guò)訓(xùn)練用于圖像分類任務(wù)。我們是否能夠理解這個(gè)模型中的卷積濾波器如何將輸入圖像轉(zhuǎn)換為其預(yù)測(cè)的標(biāo)簽?或者,GPT-3中的注意力頭如何contribute到下一個(gè)標(biāo)記的預(yù)測(cè)?理解這些模型組件——包括濾波器或頭等架構(gòu)“構(gòu)建塊”——如何集體塑造模型行為(包括模型失?。┦抢щy的。畢竟,深度網(wǎng)絡(luò)在很大程度上是黑匣子——由模型組件之間高度非線性交互構(gòu)成的復(fù)雜計(jì)算圖。
受到這一挑戰(zhàn)的啟發(fā),解釋性工作的一個(gè)方向旨在通過(guò)表征單個(gè)組件的功能,例如視覺模型中的曲線檢測(cè)器和對(duì)象特定濾波器,或語(yǔ)言模型中的知識(shí)神經(jīng)元和歸納頭,來(lái)闡明內(nèi)部模型計(jì)算。作為這一工作方向的一部分開發(fā)的方法旨在以各種方式“放大”特定的模型行為和/或組件。
改變模型組件如何集體改變個(gè)體預(yù)測(cè)?
顯式建模模型計(jì)算
為了解決上述問(wèn)題,研究人員引入了一個(gè)稱為組件建模的任務(wù)。組件建模的目標(biāo)是構(gòu)建一個(gè)簡(jiǎn)單且可解釋的估算器,以了解模型的輸出如何響應(yīng)于對(duì)其組件的干預(yù)或消除。直觀地說(shuō),這里的關(guān)鍵想法(如下圖所示)是,如果我們真正理解模型組件對(duì)預(yù)測(cè)的貢獻(xiàn),我們應(yīng)該能夠估計(jì)如果我們改變一些組件,預(yù)測(cè)將如何改變:
這項(xiàng)研究側(cè)重于組件建模的一種特殊“線性”情況,稱之為組件歸因。如下所示,對(duì)于給定模型預(yù)測(cè)的組件歸因首先為每個(gè)模型組件分配一個(gè)分?jǐn)?shù),然后估計(jì)消除一組組件的反事實(shí)效果,作為它們相應(yīng)分?jǐn)?shù)的總和:
組件歸因很簡(jiǎn)單——它將給定的預(yù)測(cè)分解為來(lái)自每個(gè)模型組件的加法貢獻(xiàn)。它們也是可解釋的,因?yàn)榉峙浣o組件的“分?jǐn)?shù)”表示該組件對(duì)感興趣的預(yù)測(cè)的“貢獻(xiàn)”(同時(shí)擺脫了模型的內(nèi)部計(jì)算的復(fù)雜性)。
此外,研究人員在數(shù)據(jù)建模工作中探索了一種類似的思路——通過(guò)預(yù)測(cè)來(lái)理解,其目標(biāo)是將模型行為預(yù)測(cè)為訓(xùn)練數(shù)據(jù)的函數(shù)。組件模型和組件歸因可以被看作是“組件空間”中的數(shù)據(jù)模型和數(shù)據(jù)歸因(或線性數(shù)據(jù)建模)的類比,而不是“訓(xùn)練數(shù)據(jù)集空間”。
通過(guò)回歸估計(jì)組件歸因(COAR)
事先不清楚組件歸因是否足夠表達(dá)深度網(wǎng)絡(luò)中從組件到預(yù)測(cè)的(固有的非線性)映射。然而,研究人員發(fā)現(xiàn)在視覺模型(例如ImageNet ViTs)和語(yǔ)言模型(例如Phi-2)上,實(shí)際上可以計(jì)算準(zhǔn)確的組件歸因——即,線性性足以預(yù)測(cè)組件消除的效果!如下所示:
為了計(jì)算這些歸因(即上面的系數(shù)向量w),研究人員提出了一種簡(jiǎn)單的方法——稱為COAR(通過(guò)回歸進(jìn)行組件歸因),它將此任務(wù)轉(zhuǎn)化為標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)問(wèn)題,并分兩步解決:
- 構(gòu)建組件消除數(shù)據(jù)集。隨機(jī)消除隨機(jī)子集的組件,并記錄每個(gè)感興趣示例的消除本身以及模型輸出如何改變。這樣可以得到一個(gè)組件消除數(shù)據(jù)集及其對(duì)模型預(yù)測(cè)的相應(yīng)效果。
- 擬合線性回歸模型。擬合一個(gè)線性模型,該模型接受“消除向量”作為輸入(編碼消除的組件的二進(jìn)制向量)并預(yù)測(cè)給定示例的預(yù)測(cè)上的消除效果。該線性模型的學(xué)習(xí)權(quán)重作為組件歸因,量化了每個(gè)組件對(duì)模型預(yù)測(cè)的貢獻(xiàn)。
COAR歸因準(zhǔn)確嗎?
回到在ImageNet數(shù)據(jù)集上訓(xùn)練的ResNet-50模型,將這個(gè)模型視為由22,720個(gè)組件組成,每個(gè)組件對(duì)應(yīng)一個(gè)卷積濾波器。能否使用COAR來(lái)預(yù)測(cè)這個(gè)模型將如何對(duì)組件消除做出響應(yīng)(在這種情況下,消除對(duì)應(yīng)于將給定一組濾波器的參數(shù)置零)?
為了回答這個(gè)問(wèn)題,研究人員使用COAR來(lái)估計(jì)ImageNet驗(yàn)證集中每個(gè)50,000個(gè)示例的組件歸因。結(jié)果是一組50,000個(gè)組件歸因—每個(gè)歸因估計(jì)每個(gè)組件對(duì)相應(yīng)ImageNet示例上模型預(yù)測(cè)的貢獻(xiàn)。
為了確定結(jié)果的歸因是否有效,研究人員簡(jiǎn)單地檢查組件歸因是否準(zhǔn)確估計(jì)了(隨機(jī)地)消除模型輸出上的隨機(jī)子集的組件的效果。
例如,上圖聚焦在一個(gè)單獨(dú)的ImageNet示例上。每個(gè)點(diǎn)對(duì)應(yīng)于一組(隨機(jī)的)模型組件。給定點(diǎn)的y值是消除該組件集的反事實(shí)效果(即,將相應(yīng)參數(shù)設(shè)置為零);x軸是對(duì)該反事實(shí)效果的估計(jì),由示例的組件歸因給出。隨機(jī)組件消除的基本事實(shí)和歸因估計(jì)的效果展現(xiàn)了高達(dá)0.70的高相關(guān)性,這意味著至少對(duì)于這個(gè)示例,組件歸因在預(yù)測(cè)模型行為方面相當(dāng)不錯(cuò)!
在下圖中,將其轉(zhuǎn)化為一個(gè)綜合分析。也就是說(shuō),評(píng)估了所有驗(yàn)證示例中基本事實(shí)消除效果和基于歸因的估計(jì)之間的平均相關(guān)性——為了測(cè)試COAR的限制,研究人員還改變了消除的組件比例,并研究了COAR的性能變化。作為基線,研究人員將幾種“組件重要性”的概念調(diào)整到組件歸因設(shè)置中。
總的來(lái)說(shuō),研究人員發(fā)現(xiàn)COAR在數(shù)據(jù)集和模型中一直以很大的優(yōu)勢(shì) consistently outperforms多個(gè)歸因基線。
譯自(有刪改):https://gradientscience.org/modelcomponents-editing/
誰(shuí)是Aleksander M?dry?
Aleksander M?dry是波蘭裔計(jì)算機(jī)科學(xué)家,麻省理工學(xué)院(MIT)教授,OpenAI Preparedness團(tuán)隊(duì)首席科學(xué)家。Aleksander M?dry的研究涉及機(jī)器學(xué)習(xí)、優(yōu)化和圖論,著重于操作化技術(shù),使得機(jī)器學(xué)習(xí)算法能夠安全地在現(xiàn)實(shí)世界中部署。他工作的主要焦點(diǎn)之一是開發(fā)能夠處理對(duì)抗攻擊的強(qiáng)大而高效的算法。這一研究方向?qū)е铝艘环N使神經(jīng)網(wǎng)絡(luò)更加抗對(duì)抗攻擊和剖析對(duì)抗樣本廣泛存在根源的方法的開發(fā)。他還致力于基于連續(xù)優(yōu)化的方法來(lái)解決組合優(yōu)化問(wèn)題,例如最大流問(wèn)題和二部圖匹配問(wèn)題。
Aleksander M?dry在2006年和2007年分別從弗羅茨瓦夫大學(xué)獲得了計(jì)算機(jī)科學(xué)和物理學(xué)的學(xué)士學(xué)位。然后,他在MIT攻讀計(jì)算機(jī)科學(xué)博士學(xué)位,于2011年完成。他的博士論文“從圖到矩陣,再到圖:圖算法的新技術(shù)”獲得了ACM博士論文獎(jiǎng)榮譽(yù)提名和MIT喬治·M·斯普勞爾斯獎(jiǎng),被評(píng)為計(jì)算機(jī)科學(xué)領(lǐng)域的最佳論文。隨后,他曾在微軟研究新英格蘭分部擔(dān)任博士后研究員,并在瑞士洛桑聯(lián)邦理工學(xué)院擔(dān)任教職,然后加入了麻省理工學(xué)院電氣工程和計(jì)算機(jī)科學(xué)系的教職。
Aleksander M?dry因其研究貢獻(xiàn)獲得了許多獎(jiǎng)項(xiàng)和榮譽(yù),包括NSF職業(yè)生涯獎(jiǎng)。他的工作曾多次獲得諸如IEEE計(jì)算機(jī)科學(xué)基礎(chǔ)研究會(huì)議(FOCS)等會(huì)議的最佳論文獎(jiǎng)。2019年,他被歐洲理論計(jì)算機(jī)科學(xué)協(xié)會(huì)授予普雷斯伯格獎(jiǎng)。