AI的哲學(xué)系思考—認(rèn)知不變性與AI
美國的 DARPA(US Defense Advanced Research Projects Agency)曾經(jīng)提出過第三波 AI 的概念,在其論述中,第三波 AI 里很重要的一部分就是達(dá)到通用人工智能。換句話說,當(dāng)下的人工智能更多還是依賴于統(tǒng)計(jì)學(xué)信息,當(dāng)傳入模型的數(shù)據(jù)分布發(fā)生變化時(shí)(任務(wù)變化),就很難達(dá)到理想的效果。傳統(tǒng)的 AI 中,大部分的 AI 算法都渴望找到一個(gè)生物學(xué)依據(jù)來進(jìn)行對應(yīng),盡管有很多人質(zhì)疑這種對應(yīng)的必要性,而且就如飛機(jī)的發(fā)明一樣,其實(shí)飛機(jī)的飛行方式跟鳥類有很大不同,但在發(fā)現(xiàn)更好的算法之前,向人腦學(xué)習(xí)或許是更好地選擇。既然要向人腦學(xué)習(xí),那么人類探索世界的過程就可以成為 AI 最好的老師,而哲學(xué)就是人類探索世界最神秘也最牢固的基石,很多學(xué)者也開始注意到哲學(xué),除了將其作為虛無縹緲的 “底蘊(yùn)” 外,他們也開始試著將哲學(xué)的思路真正融入到 AI 算法中來。
因此,本文也選擇了一個(gè)角度,從科學(xué)認(rèn)知的不變性(Hard To Vary, HTV)入手,然后介紹 HTV 存在的必要性以及在廣義上如何基于內(nèi)部可變性(internal variablity)和外部可變性(external variability)在 AI 中衡量并實(shí)現(xiàn)這種不變性,最后會(huì)介紹幾個(gè)剛剛提出的具體的實(shí)現(xiàn)認(rèn)知不變性的標(biāo)準(zhǔn)。
什么是科學(xué)認(rèn)知不變性(HTV)

圖 1:David Deutsch 在其 TED Talk 中提出了 HTV 的必要性 [4]
簡單來說,科學(xué)認(rèn)知不變性的意思就是我們提出的理論應(yīng)該是不易變化的。下面是 Wiki 對于 HTV 相對完整的定義:
Theorists should seek explanations that are hard to vary. By that expression, the author intended to state that a hard-to-vary explanation provides specific details that fit together so tightly that it is impossible to change any detail without affecting the whole theory.
(如果學(xué)者們想要確定一個(gè)理論,那么這個(gè)理論最好是具有不變性的(難以被撼動(dòng),也就是 hard to vary)。這樣的理論應(yīng)該是這樣的:所有的細(xì)節(jié)都很清晰而且相互緊密聯(lián)系,如果你想推出這個(gè)理論的結(jié)果,你只有這一條路可以走,替換這條路(本理論)中的任何細(xì)節(jié)都會(huì)讓這個(gè)理論不再成立。)[5]
基于這個(gè)角度來看,神話就是人類在認(rèn)知世界時(shí)的一個(gè)極端的反面例子了(至少目前看來)。舉個(gè)例子,在古希臘神話中。季節(jié)是這么來的:冥界之神哈迪斯(Hades)綁架了春天之神珀?duì)柸D≒ersephone),并強(qiáng)迫她結(jié)婚。結(jié)婚后哈迪斯放走了春天之神,但是要求她定期回來。因此很神奇的,每年她真的就就會(huì)被迫回到冥界。而她的母親,大地女神得墨忒耳 (Demeter) 悲傷不已,使大地變得寒冷而貧瘠,也就變成了人間的冬天。先不說這之中的不變性是否存在,就只說其內(nèi)在邏輯,如果冬天是因得墨忒耳的悲傷而造成的,那么它必須同時(shí)發(fā)生在地球上的所有地方。所以如果古希臘人知道澳大利亞在得墨忒爾最悲傷的時(shí)候是最熱的...... 他們就會(huì)知道他們的理論是錯(cuò)誤的。
除了事實(shí)給這個(gè)故事帶來的矛盾之外,四季的解釋還可以由其他各種各樣的故事來代替,比如說在新的故事里強(qiáng)迫春天之神回去的理由不是那一紙婚約,而是為了復(fù)仇,因?yàn)檫@里的珀?duì)柸D鶝]有被釋放,但是她逃跑了。從此之后,每年春天她會(huì)回來用她的春天之力向哈迪斯復(fù)仇——她用春天的空氣給它的領(lǐng)地降溫,這些熱量散發(fā)到地面,創(chuàng)造了我們的夏天。這和最初的神話解釋了相同的現(xiàn)象,同樣是跟現(xiàn)實(shí)相符的。然而,它對現(xiàn)實(shí)的斷言,在許多方面是相反的。這是可能的,因?yàn)樵忌裨挼募?xì)節(jié)與季節(jié)無關(guān),除了通過神話本身。
如果上面的故事太長太難理解,那么就再舉個(gè)更簡潔的例子,過去的神話中,下雨是龍王控制的,還有雷公電母負(fù)責(zé)雷電,這種故事都是很容易變的,只要改個(gè)人就行了,比如雷公改成雷神,就可以實(shí)現(xiàn)完全相同的結(jié)果,只不過內(nèi)在的解釋卻全然不同,分別代表著中國古代神話和漫威。
這就是為什么 HTV 會(huì)被提出來,如果現(xiàn)在的科學(xué)也像這類故事一樣內(nèi)在邏輯其實(shí)很容易被篡改,然后還能達(dá)到完全相同的結(jié)果,那將會(huì)是很恐怖的,這也解釋了為什么當(dāng)下的 AI 黑盒模型很難被除 AI 從業(yè)者之外的人信任。那么為了實(shí)現(xiàn)不變性,這些神話里缺了什么?回到開始對于季節(jié)的解釋上,它們?nèi)笔У囊粋€(gè)關(guān)鍵元素是該理論內(nèi)部演繹邏輯所產(chǎn)生的約束。現(xiàn)代科學(xué)對季節(jié)的解釋就是一個(gè)很好的例子,因?yàn)樗婕暗教柟饩€和地軸傾斜的一系列緊密的幾何推導(dǎo)。盡管它也有一些自由的參數(shù),如傾斜的角度等,但大多數(shù)的解釋都來源于于不能改變的幾何推論。當(dāng)然,這類約束存在的前提是我們要建立的知識(shí)的一致性。
HTV 能做什么
現(xiàn)在的 AI 行業(yè)其實(shí)正在蓬勃發(fā)展,有幾家公司已經(jīng)推出了全自動(dòng)駕駛汽車,而谷歌的 Duplex 系統(tǒng)憑借其能夠進(jìn)行自然語言對話的能力贏得了很多受眾。而最近的 GPT3 模型已經(jīng)證明能夠編寫非常令人信服的故事,并在測試期間甚至可以執(zhí)行語料外的任務(wù)(論文中的零樣本學(xué)習(xí)部分)。然而,仍有許多人工智能無法做到的事情。今天的人工智能系統(tǒng)缺乏人類水平的常識(shí)理解,在機(jī)器人操作物體方面很笨拙,在任意推理方面也很差。另一個(gè)問題是,如今的人工智能無法從人類這樣的少數(shù)例子中學(xué)習(xí),需要大量數(shù)據(jù)來進(jìn)行訓(xùn)練。然而,最重要的是,今天的人工智能系統(tǒng)都很狹窄,也就是 DARPA 提到的 Narrow AI——它們只能在訓(xùn)練數(shù)據(jù)分布的范圍內(nèi)執(zhí)行它們被訓(xùn)練完成的任務(wù)。只要今天的人工智能系統(tǒng)被要求在訓(xùn)練數(shù)據(jù)分布之外工作,它們通常就會(huì)失敗。
換句話說,當(dāng)前的 AI 更注重歸納(Induction)出來的結(jié)果。但是矛盾點(diǎn)就在這里,如果 AI 真的要向人腦學(xué)習(xí),那學(xué)者們就很難繞開波普爾(Popperian)提出的認(rèn)知論,而在這個(gè)認(rèn)知論中,他反對歸納法,認(rèn)為歸納法不是科學(xué)知識(shí)增長和發(fā)展所必需的。而目前的很多機(jī)器學(xué)習(xí)甚至很多科學(xué)研究,其實(shí)本質(zhì)上都相當(dāng)于貝葉斯歸納法,而且當(dāng)下一個(gè)很流行的觀點(diǎn)就是,所有的人工智能系統(tǒng)都是近似的索羅門諾夫歸納法(Solomonoff induction)。
就像某辯論節(jié)目中說的那樣,哲學(xué)更多是用來證偽,而不是用來證實(shí)。而 AI 正是在為了幾乎為了幾乎不可能的 “證實(shí)” 在努力。簡單來說,AI 希望能夠產(chǎn)生理論,而且理論完全準(zhǔn)確。但這顯然是不可能的。在波普爾看來,理論向來都是為了解決問題而出現(xiàn)的“大膽猜想”,而不是直接從經(jīng)驗(yàn)中學(xué)來的。舉個(gè)例子,星星其實(shí)也是一個(gè)個(gè)太陽,只不過他們比太陽離我們更遠(yuǎn),這是阿納薩哥拉斯(Anaxagoras)在公元前 450 年首次提出的大膽猜想。盡管人工智能研究人員對如何產(chǎn)生這樣的猜測非常感興趣,但波普爾并不太關(guān)心如何產(chǎn)生猜測,相反,他認(rèn)為這是一個(gè)心理學(xué)家需要回答的問題。畢竟,一個(gè)猜想的真實(shí)性與它的來源無關(guān)。雖然經(jīng)驗(yàn)?zāi)軌虿⑶掖_實(shí)告訴我們哪些猜想應(yīng)該保留,哪些應(yīng)該拋棄,特別是以經(jīng)驗(yàn)檢驗(yàn)的形式,但在波普爾看來,經(jīng)驗(yàn)總是帶有理論色彩的。換句話說,不可能像弗朗西斯 · 培根所說的那樣,以一種完全客觀的方式進(jìn)行觀察。
對波普爾來說,理論和觀測哪個(gè)先出現(xiàn)的問題很像先有雞還是先有蛋的問題。科學(xué)理論是建立在觀察的基礎(chǔ)上的,但從某種程度上說,這些觀察又是由之前的科學(xué)理論提供的,這樣不斷追溯我們甚至可以追溯到史前科學(xué)的神話中。因此,盡管理論的實(shí)證檢驗(yàn)在證明某些理論是錯(cuò)誤的同時(shí)保留其他理論方面發(fā)揮著作用,但波普爾認(rèn)為,從根本上說,所有的理論都來源于 “內(nèi)部”,而不是來自外部的印象。如果可證偽性是一個(gè)理論是否科學(xué)的關(guān)鍵,那么建立在神話之上的理論,能夠?qū)ι?、魔鬼和鬼魂的行為做出可證偽的預(yù)測,就應(yīng)該被認(rèn)為是科學(xué)的嗎?波普爾通過他的“可證偽性的程度” 概念,在一定程度上解決了將這些明顯不科學(xué)的理論從科學(xué)領(lǐng)域中移除的任務(wù),但這一原則的有效性我們依然不清楚。
于是 HTV 的存在就很有必要了,因?yàn)樗孟窨梢杂糜谧鳛閰^(qū)分科學(xué)理論和不科學(xué)理論的替代標(biāo)準(zhǔn)。對應(yīng)的,AI 既然聲稱自己的模型要成為智能,那么 HTV 也可以用來證明 AI 模型輸出的有效性。
AI 與 HTV 的關(guān)系
通常來說,HTV 可以這么解釋:對應(yīng)一個(gè)特定的理論,有多少個(gè)等價(jià)的解釋存在。例如,在機(jī)器學(xué)習(xí)的環(huán)境中,HTV 原理可以分別應(yīng)用于各種類型的模型架構(gòu),每一種都有固定數(shù)量的參數(shù)。有更多參數(shù)的模型能夠表達(dá)更大的函數(shù)類,因此更容易變化。
從表面上看,HTV 原理似乎與經(jīng)典統(tǒng)計(jì)中的偏 - 方差權(quán)衡(bias-variance trade-off)的其中一方面有關(guān),即參數(shù)過多的模型更容易對其訓(xùn)練數(shù)據(jù)進(jìn)行過擬合,導(dǎo)致對測試數(shù)據(jù)的泛化能力較差。然而,回想一下,我們感興趣的是外推(分布外的模型能力),而不是訓(xùn)練分布范圍內(nèi)的經(jīng)典泛化。偏差 - 方差權(quán)衡只針對分布中的泛化,因此與 HTV 原理是基本不相干的。而且在機(jī)器學(xué)習(xí)中,隨著更多的參數(shù)添加到模型中,偏見 - 方差權(quán)衡已經(jīng)被證明會(huì)失效——如超過某個(gè)閾值,導(dǎo)致 “雙下降” 曲線的發(fā)生[6]。因此目前來說,更多的參數(shù)總是有幫助的,而不會(huì)有壞處。所以,偏差 - 方差權(quán)衡本身的存在也變得值得懷疑了。如何區(qū)分適用偏差 - 方差權(quán)衡的模型和不適用偏差 - 方差權(quán)衡的模型仍然是一個(gè)正在進(jìn)行的研究領(lǐng)域。同時(shí),過度擬合的問題通??梢杂酶蟮臄?shù)據(jù)集來補(bǔ)償。因此,大型模型在本質(zhì)上并不是不好的,這取決于可用數(shù)據(jù)的數(shù)量。
因此,其實(shí) HTV 與奧卡姆剃刀(Occam’s razor)原則似乎更接近。簡單來說,這個(gè)原則所表達(dá)的意思就是模型(參數(shù))越簡單越好,簡單的模型可以完成的事情沒必要用復(fù)雜的東西來完成。Kolmogorov complexity 可以很好地衡量這一原則(具體在 AI 中如何應(yīng)用會(huì)在后面說)。
如果字符串 s 的描述 d(s)具有最小長度 (即使用最小比特?cái)?shù)),則稱為 s 的最小描述,d(s) 的長度 (即最小描述中的比特?cái)?shù)) 為 s 的 Kolmogorov 復(fù)雜度,寫成 K(s)。而最短描述的長度取決于描述語言的選擇; 但是改變語言的影響是有限度的(這個(gè)結(jié)果被稱為不變性定理)。這在 AI 中,這種簡單性的衡量可以有有兩種方式:
- 一是利用所有已有的解釋框架,或者看這個(gè)訓(xùn)練好的模型有多復(fù)雜。Hochreiter 和 Schmidhuber 發(fā)現(xiàn),在參數(shù)空間的損失函數(shù)表面上存在平面極小值的深度學(xué)習(xí)模型更易于推廣。這一點(diǎn)很好解釋,平面極小值表示該模型擁有較低復(fù)雜度(更易于壓縮)。但是,最近發(fā)現(xiàn)了與以下觀點(diǎn)相反的例子:損失函數(shù)曲率較低的深度學(xué)習(xí)模型具有更高的通用性。如果結(jié)合 Popper 的觀點(diǎn),這種利用具有較低曲率的函數(shù)比具有較高曲率的函數(shù) “更簡單” 等觀點(diǎn)來證明簡單性是不對的,Popper 認(rèn)為,通過簡單性來進(jìn)行函數(shù)排序的做法是出于美學(xué)或?qū)嵺`考慮,但并沒有在任何深層次的認(rèn)知原理中建立良好的基礎(chǔ)。
- 衡量簡單性的另一種方法是查看模型中自由參數(shù)的數(shù)量。這項(xiàng)措施似乎更符合 Deutsch 的可變性概念。帶有更多自由參數(shù)的模型(或使用 Occam 的語言 “實(shí)體”)更具可變性,因?yàn)榭梢暂p松地調(diào)整參數(shù)以適合不同的數(shù)據(jù)。Deutsch 卻反駁了這一觀點(diǎn) - 實(shí)體較少的模型可變性較小,他說:“有很多簡單的解釋都是高度可變的,例如'Demeter did it'。” 看起來 Deutsch 正在研究的是理論上的各種約束,包括內(nèi)部和外部,以及參數(shù)的微小變化改變模型預(yù)測的程度。弗朗索瓦 · 喬列(Fran Ocois Chollet)辯稱,奧卡姆(Occam)的剃刀與推斷是對立的。例如,如果模型是在訓(xùn)練數(shù)據(jù)上取得良好性能的最簡單方法,那么在新情況下就不太可能取得良好的效果。Chollet 認(rèn)為模型應(yīng)該包含 “外部” 信息,以便能夠進(jìn)行推斷。
怎樣衡量 AI 模型的 HTV 性
要衡量 AI 模型的 HTV 性,就要先明確 HTV 性在 AI 模型中的表現(xiàn)形式是什么。深度學(xué)習(xí)在工業(yè)界應(yīng)用的常見問題就是極其不穩(wěn)定,就比如圖像識(shí)別領(lǐng)域,照明條件、圖像分辨率、圖像的呈現(xiàn)形式等等等等,都有可能成為深度學(xué)習(xí)模型的攔路虎。另外一個(gè)比較出名的例子就是 DeepMind 為了電腦游戲《星際爭霸》而開發(fā)的 AlphaStar 系統(tǒng)了。對于給定的地圖和角色,模型可以輕松戰(zhàn)敗人類,但這種能力不能泛化到其他的角色和地圖中,必須分別重新訓(xùn)練。這些問題都在向我們說明,AI 模型很難在訓(xùn)練數(shù)據(jù)的分布外完成其任務(wù),也就是很難完成條件跟訓(xùn)練時(shí)不同的任務(wù)。而 HTV 則指引我們,一個(gè)好的模型,應(yīng)該在一個(gè)新的場景下以最小的代價(jià)最高程度地完成新的任務(wù)。
因此對應(yīng)于訓(xùn)練好的模型,[1]中定義了兩個(gè)概念:
- 內(nèi)部靈活性(internal variability):一個(gè)模型 / 理論在多大程度上可以內(nèi)部改變,同時(shí)仍然產(chǎn)生相同的預(yù)測。很明顯這個(gè)越小越好,如果以上面的神話為例,神話的內(nèi)部靈活性顯然極大;
- 外部靈活性(external variability):為了適應(yīng)新的數(shù)據(jù),模型必須改變多少。很顯然,這個(gè)條件是越小越好,也就是說以最低的代價(jià)完成新任務(wù)。
對應(yīng)于這兩個(gè)性質(zhì),如果能夠很好地衡量 AI 模型中這兩個(gè)性質(zhì)的實(shí)現(xiàn)程度,那么就能更好的達(dá)到所謂的通用人工智能(Artificial General Intelligence, AGI)。本小節(jié)的剩下內(nèi)容會(huì)分開介紹這兩個(gè)性質(zhì)在 AI 中對應(yīng)什么,以及一些概念上對這些性質(zhì)進(jìn)行衡量的方式。
內(nèi)部靈活性
內(nèi)部靈活性的定義是一個(gè)模型 / 理論在多大程度上可以內(nèi)部改變,同時(shí)仍然產(chǎn)生相同的預(yù)測??紤]一個(gè)基于輸入變量 x 預(yù)測輸出 y 的常見問題。科學(xué)家首先會(huì)引入與現(xiàn)有系統(tǒng)相關(guān)的先驗(yàn)知識(shí),并且通常會(huì)引入先驗(yàn)已知的科學(xué)定律。然后,利用這些先驗(yàn)知識(shí),他們將為該關(guān)系派生或猜測一種功能形式,使其適合數(shù)據(jù),并查看其工作情況。重要的是,該功能保持相對簡單,因此仍然可以理解 - 除了準(zhǔn)確預(yù)測之外,還存在理解的隱含需求。相比之下,在機(jī)器學(xué)習(xí)中,從業(yè)人員僅關(guān)注預(yù)測準(zhǔn)確性,因此可以接受大的黑匣子功能。Leo Brieman 指出,使用大型多參數(shù)函數(shù)(例如神經(jīng)網(wǎng)絡(luò))時(shí)會(huì)出現(xiàn)一個(gè)奇怪的事實(shí)–大量模型在任何數(shù)據(jù)集 {x,y} 上都可能具有相等的誤差(損失)[8]。每當(dāng)數(shù)據(jù)嘈雜時(shí)都是如此,就像在任何實(shí)際應(yīng)用程序中一樣。他稱這是羅生門效應(yīng),是在一部日本電影中,四個(gè)人都目睹了一個(gè)人死亡的事件。在法庭上,他們都報(bào)告看到相同的事實(shí),但是對于所發(fā)生的事情,他們的解釋截然不同。在神經(jīng)網(wǎng)絡(luò)中也可以發(fā)現(xiàn)這種有趣的現(xiàn)象——用不同的隨機(jī)初始化訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)可以達(dá)到相同的精度,但內(nèi)部工作方式不同(例如,使用不同的功能),這是一個(gè)未被充分認(rèn)識(shí)的事實(shí)。測量深度學(xué)習(xí)模型的羅生門集的大小,相當(dāng)于確定等價(jià)最小值的數(shù)量。這是一個(gè)水平集問題,據(jù)我們所知,在這一領(lǐng)域還沒有做太多的研究,并且沒有簡便的方法來計(jì)算此集合的大小。
外部靈活性
那么怎么實(shí)現(xiàn)分布外的預(yù)測能力呢,那模型需要更勇敢的向外進(jìn)行推理,也就是外斷(Extrapolation)。為了衡量外斷的能力,也有了外部靈活性的概念。為了衡量外部靈活性,我們可以再次假設(shè)我們正在為一個(gè)簡單的函數(shù) y = f(x)建模,并試圖將它擬合到一個(gè)數(shù)據(jù)集 {(x, y)}。為了測量外部可變性,我們希望直觀的知道我們需要改變多少 f(x) 來使模型適應(yīng)數(shù)據(jù)集的變化。我們可以通過考慮兩種截然不同的預(yù)測模型來進(jìn)一步了解這一點(diǎn)——k 最近鄰和基于物理的模擬來計(jì)算核塌超新星中作為其質(zhì)量函數(shù)的最大壓力。第一種模型可以靈活地適用于任何函數(shù) y = f(x),而第二種模型則是為特定用途量身定制的。另一個(gè)高度靈活模型的例子是基于優(yōu)化器的神經(jīng)網(wǎng)絡(luò)(在給定數(shù)據(jù)集的情況下做出預(yù)測,神經(jīng)網(wǎng)絡(luò)得先在數(shù)據(jù)上擬合)。
為了進(jìn)行量化,我們必須有一種方法來量化模型中的變化,以適應(yīng)新的數(shù)據(jù)集。算法信息理論可以幫助解決這兩個(gè)問題。給定一個(gè)圖靈機(jī)和數(shù)據(jù)集 D1, D1 中的算法信息,也稱為 Kolmogorov 復(fù)雜度,是用我們選擇的特定圖靈機(jī)復(fù)制 D1 的最短程序的比特串 s1 的長度。記為 H(D1) = length(s1)?,F(xiàn)在假設(shè)我們有一個(gè)在不同數(shù)據(jù)集 DAI 上訓(xùn)練過的人工智能算法 sAI,我們希望測量它需要改變多少才能在 D2 上工作得最優(yōu)。s1 與 sAI 之間的相對算法信息,記為 H(s1|sAI)是給定 sAI 復(fù)制 s1 的最短的改變算法的長度。因此,它是一種使 sAI 在 D2 上發(fā)揮最優(yōu)作用所需的變化量的測量方法。不幸的是,這種復(fù)雜性是無法計(jì)算的。然而,我們可以利用這個(gè)復(fù)雜性的近似值,而不是試圖找到復(fù)制 D2 的最優(yōu)程序。我們指定一個(gè)精度邊際(盡可能多地列舉所有可能性),然后,在我們設(shè)定的范圍內(nèi)尋找重現(xiàn) D2 所需的 sAI 長度的最小變化。注意,我們不關(guān)心 sAI 有多大,只關(guān)心它需要改變多少來適應(yīng)新的數(shù)據(jù) DAI。因此,這種 “HTV” 性的概念與 “奧卡姆剃刀” 是不同的。我們還沒有指定如何設(shè)置 DAI (AI 設(shè)計(jì)的初始數(shù)據(jù)集)和 D2。顯然,這些數(shù)據(jù)集不能隨機(jī)生成。無免費(fèi)午餐定理說明所有算法在對每個(gè)可能的問題平均時(shí)都是等價(jià)的。因此,當(dāng)試圖從一個(gè)隨機(jī)選擇的數(shù)據(jù)集推斷到另一個(gè)數(shù)據(jù)集時(shí),所有算法都將處于平等的基礎(chǔ)上。我們所處的情況與 Chollet 試圖嚴(yán)格定義智力時(shí)所面臨的情況非常相似。Chollet 的解決方案是將問題空間限制為一組人類可以解決的問題。喬列指出,自然世界符合一系列非?;镜南闰?yàn),如客體性(存在不同的對象)、基本物理學(xué)、主體性(存在有目標(biāo)的主體)、數(shù)字和算術(shù)、基本幾何和拓?fù)洹N覀兺瑯涌梢詳嘌?D1 和 D2 的生成必須符合一組先驗(yàn)規(guī)則?;蛘吒唵我稽c(diǎn),我們可以說 D1 和 D2 是由物理現(xiàn)象產(chǎn)生的。這充分限制了問題 / 數(shù)據(jù)空間,使外推變得可行。
如何讓模型學(xué)習(xí)到 HTV 解

- 論文地址:https://arxiv.org/pdf/2009.00329.pdf
- Code: https://github.com/gibipara92/learning-explanations-hard-to-vary
前面較為表面地論述了 HTV 與 AI 的關(guān)系,為了讓 HTV 真正對 AI 算法產(chǎn)生效果,還有很多細(xì)節(jié)需要確定,比如說 HTV 可以解決 AI 的具體什么問題,怎么解決等等。LEARNING EXPLANATIONS THAT ARE HARD TO VARY 給出了一個(gè)很好地嘗試,它首先清楚地定義了在 AI 中 HTV 可以幫助解決的問題(如圖 2 所示):

圖 2:HTV 對應(yīng) AI 中的問題 [7]
這個(gè)問題簡單來說就是當(dāng)數(shù)據(jù)分布變化時(shí),最優(yōu)解可能會(huì)發(fā)生變化,從而也就失去了不變性。為了驗(yàn)證這一點(diǎn),作者特意生成了兩組數(shù)據(jù),然后按照傳統(tǒng)的訓(xùn)練方法在不同的初始化參數(shù)(白色圓圈)下獲得了兩個(gè)局部最優(yōu)解(星星),但是當(dāng)這兩組數(shù)據(jù)分開訓(xùn)練的時(shí)候,由于生成數(shù)據(jù)的特殊性,兩組數(shù)據(jù)的損失曲面會(huì)在一條線(左下的圖是一條豎線,右下圖是一條橫線)上達(dá)到最小值,那么這一條線上的所有點(diǎn)都是局部最優(yōu)解,會(huì)產(chǎn)生很多很多個(gè)局部最優(yōu)解,這種情況下基本就很難在找到最上面圖右上角的那個(gè)最優(yōu)解了,除非初始化的參數(shù)正好讓他們得到了 (0.8,0.8) 這個(gè)最優(yōu)解(概率幾乎為 0,相當(dāng)于 1/*∞*)。
在這個(gè)例子里,顯然下面兩張圖中左下角的解符合 HTV 的原則,而其他的解都極其易于變化,而當(dāng)數(shù)據(jù)變多時(shí),這些極易變化的解大多數(shù)都不在有用了。作者也用了一個(gè)更加現(xiàn)實(shí)主義的例子解釋了 HTV 在 AI 中到底需要實(shí)現(xiàn)什么效果(如圖 3 所示):

圖 3:HTV 可以解決什么[7]
圖 3 展示了兩種筆記,左邊那種筆記很難用再其他的棋譜上(如果棋譜尺寸變化,就不再有用了),但是右圖的筆記是可以的。比如如果有第三本棋譜,棋譜的大小比例跟圖 3 中的棋譜完全不同,這時(shí)出現(xiàn)了跟左圖中類似的場景,用箭頭就很可能會(huì)出錯(cuò)。想象一個(gè)比圖 3 大一倍的棋譜,那箭頭指向的位置可能正好比原來少一半的格子,而用符號(hào)描述的方法就不存在這種問題。
上面的例子也從側(cè)面論證了 HTV 的重要性,圖示類的筆記很容易改變,如果箭頭彎一下或者棋譜變一下都會(huì)產(chǎn)生問題,而用文字的表述時(shí),想要表達(dá)每一步棋的方法是確定的,也就更易于廣泛地推廣到更多的棋譜。因此,作者希望找到類似于右圖的筆記作為最優(yōu)解。
為了解決這個(gè)問題,作者提出了一種 AND mask,這種 mask 不是 mask 輸入,而是對梯度進(jìn)行 mask。作者先把數(shù)據(jù)分成多份,每一份被認(rèn)定為一個(gè)環(huán)境中產(chǎn)生的數(shù)據(jù)(類似于平時(shí)訓(xùn)練時(shí)的 batch),在正常的訓(xùn)練中,我們會(huì)對每個(gè) batch 進(jìn)行類似于 average 的操作,這樣就會(huì)導(dǎo)致圖 4 所示的問題,Batch A 和 Batch B 的梯度方向完全不一致,但最終他們的影響都被保留了。

圖 4:非一致性[7]
為了確認(rèn)哪些梯度要被 mask,對于每個(gè)環(huán)境(batch)下得到的參數(shù)θ,作者在參數(shù)θ的情況下對每個(gè)環(huán)境(下式中的 e,也就是 batch)的損失函數(shù)進(jìn)行比較從而得到這個(gè)參數(shù) ILC(Invariant Learning Consistency, 學(xué)習(xí)的一致性)。簡單來說,就是只保留那些被更多數(shù)據(jù)認(rèn)可的梯度方向,作者提到的 geometric average 也是為了表達(dá)這個(gè)意思。

除了前面提到的具體解決方案(AND mask)外,文中也提綱挈領(lǐng)的提出了幾個(gè)導(dǎo)致訓(xùn)練結(jié)果不能 HTV 的常見問題(有些其實(shí)已經(jīng)被解決了):
- 沒找到最優(yōu)解就停止了訓(xùn)練。既然沒找到最優(yōu)解,那么更別說找到 HTV 解了。
- 梯度聚合方式。如果在訓(xùn)練的時(shí)候,信號(hào)是獨(dú)立學(xué)習(xí)的(batch),那么這些信號(hào)的聚合方式就很重要了,合理的聚合方式才能保證所有信息不被丟失。如前文(圖 4)所示,我們常用的 average 在很多情況下會(huì)丟失重要的信息,比如圖 4 中向左的信息就被丟失了,如果更多的 batch 希望向左,但是值卻很小,那么 average 下還是向右,但是更 general 的方案顯然是向左。
最后作者在自己生成的數(shù)據(jù)上驗(yàn)證了自己的想法,也在 CIFAR 10 上確定了自己的方式有一定的優(yōu)勢,雖然所有的實(shí)驗(yàn)對比都是在一定的限制下的,但是本文提出的思路,以及將 HTV 嵌入到 AI 中的思路,都很值得學(xué)習(xí)。
總結(jié)
對于 HTV 性,如果將來可以將這一性質(zhì)定量的加入到模型的損失函數(shù)中去,那么可以預(yù)見的,AGI 將離人類更進(jìn)一步。當(dāng)然,本文全篇的假設(shè)還是基于如果 AI 的學(xué)習(xí)對象還是人腦,如果 AI 研究過程中能夠發(fā)現(xiàn)一些跟人腦功能無關(guān),但是依舊有效的算法,也未嘗不可??偠灾?,為了實(shí)現(xiàn) DARPA 所說的第三波 AI 甚至更高級的 AI,我們需要發(fā)現(xiàn)一種更綜合的 loss 來完成我們預(yù)期的任務(wù)。