對話無政府主義者:諾姆·喬姆斯基談深度學(xué)習(xí)的未來
本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)
在過去的幾周里,筆者一直在和最喜歡的無政府主義辛迪加主義者諾姆·喬姆斯基進行電子郵件交流。最初聯(lián)系是為了確認,人工神經(jīng)網(wǎng)絡(luò)(ANNs)的最新發(fā)展是否促使喬姆斯基重新考慮他的著名語言學(xué)理論——普遍語法。
談話觸及了深度學(xué)習(xí)可能存在的局限性,ANNs在多大程度上模擬了生物大腦,同時也涉及了更多的哲學(xué)領(lǐng)域。因為這是場非正式的討論,在這篇文章中不會直接引用喬姆斯基教授的話,筆者將嘗試總結(jié)其中的關(guān)鍵內(nèi)容。
諾姆·喬姆斯基是誰?
筆者非常欣賞喬姆斯基的作品,尤其是他對美帝國主義、新自由主義和媒體的批判。我們的觀點有些微分歧的地方是關(guān)于他對大陸哲學(xué)家(特別是法國后結(jié)構(gòu)主義者)的摒棄。
也許因為筆者過多地從???、拉康和德里達的作品中汲取靈感而有些思想固化,但我總能發(fā)現(xiàn)喬姆斯基對哲學(xué)的分析方法在道德上很有吸引力,但它們有點太“干凈”了,因而無法令人滿意地解釋我們的世界。
盡管喬姆斯基對這些后結(jié)構(gòu)主義杰出人物的不屑是顯而易見的,但他的哲學(xué)觀點實際比他的批評者所認為的更為微妙。
普遍語法
聲明在前,筆者并不是語言學(xué)家,但在這一節(jié)中,我將嘗試對普遍語法理論作一個概述。
在喬姆斯基之前,語言學(xué)上的主流假設(shè)是,人類天生就像一張白紙,通過強化來習(xí)得語言。也就是說,孩子們聽到父母說話,他們模仿他們聽到的聲音,當(dāng)他們正確地使用一個詞或結(jié)構(gòu)一個句子時,他們會受到表揚。
喬姆斯基的研究表明,強化只是故事的一部分,人類大腦中一定普遍存在著固有結(jié)構(gòu),有助于語言習(xí)得。他的主要論點是:
- 兒童習(xí)得語言的速度太快,而輸入的數(shù)據(jù)太少,無法用強化學(xué)習(xí)來解釋(這也被稱為“刺激的貧乏”論點)。
- 即使面對與人類相同的數(shù)據(jù),動物也無法習(xí)得語言。20世紀60年代有一個著名的實驗,語言學(xué)家們試圖教一只名叫“NimChimpsky”的猩猩學(xué)習(xí)手語。但10年后,他除了一些基本的交流技能外,仍然無法與人交流。
- 所有人類語言之間都有共性。這表明,即使語言已經(jīng)獨立發(fā)展,因為人類大腦結(jié)構(gòu)相同,所以也存在著普遍的特征。
- 孩子們并不是天生就學(xué)習(xí)一種特定的語言。如果你在德國撫養(yǎng)一個出生在肯尼亞的孩子長大,他們會像德國孩子一樣容易地學(xué)會德語。
這個關(guān)于基因編碼的語言能力的理論在科學(xué)界得到了廣泛的接受,但是接下來有一個不言而喻的問題,“這種普遍語法實際上看起來像什么?”勇敢的研究人員很快開始發(fā)現(xiàn)所有人類語言的共同特性,但對于我們天生的語言能力是什么形式,仍然沒有達成共識。
可以有把握地假設(shè),普遍語法不包括具體的語法規(guī)則,但更有可能是一種基本的認知功能。喬姆斯基假設(shè),在人類歷史的某個時刻,人類發(fā)展出了執(zhí)行一種簡單的遞歸過程的能力,稱為“合并”,這是我們在人類語言中看到的語法結(jié)構(gòu)的屬性和約束的原因。
它有點抽象,但本質(zhì)上“合并”是指獲取兩個對象并將它們組合成一個新對象的過程。雖然這種能力看似平淡無奇,但在精神上結(jié)合概念,并遞歸地這樣做,卻是一種令人不解的強大能力,它允許我們構(gòu)建“無數(shù)種層次結(jié)構(gòu)的表達式”。
這一微小但至關(guān)重要的基因飛躍不僅可以解釋我們的語言交流能力,而且可以得出結(jié)論,它至少部分地在更廣泛的范圍內(nèi)對我們的數(shù)學(xué)天賦和人類創(chuàng)造力負有責(zé)任。這種“融合”突變發(fā)生在我們的一個祖先身上,大約10萬年前,它可能是區(qū)分人類和其他動物的關(guān)鍵因素之一。
人工神經(jīng)網(wǎng)絡(luò)
聯(lián)系喬姆斯基教授的主要原因是,筆者想聽聽他對人工神經(jīng)網(wǎng)絡(luò)的看法。ANNs是機器學(xué)習(xí)模型的一個子集,它以人類大腦為模型,并以類似的方式學(xué)習(xí)(通過查看大量的例子)。這些模型只需要很少的硬編碼,并且可以用相對簡單的架構(gòu)執(zhí)行相當(dāng)廣泛的復(fù)雜任務(wù)(例如圖像標記、語音識別、文本生成)。
這種方法的一個有益例子是谷歌開發(fā)的AlphaGo Zero模型,它學(xué)會了圍棋,最終被人類世界冠軍擊敗。最令人印象深刻的是,它被訓(xùn)練在沒有硬編碼或人工干預(yù)的情況下完成所有這些,這就是“白板”(tabula rasa)。
雖然ANNs肯定不是人類大腦的完美類比,但我問喬姆斯基教授,這些模型是否表明,我們實際上并不需要硬編碼的認知結(jié)構(gòu)來從分散的數(shù)據(jù)中學(xué)習(xí)。
喬姆斯基正確地指出,ANNs對于高度專業(yè)化的任務(wù)是有用的,但這些任務(wù)必須受到嚴格的限制(盡管考慮到現(xiàn)代計算機的內(nèi)存和速度,它們的范圍可能看起來很大)。他把ANNs比作在高層建筑上工作的巨型起重機。
盡管令人印象深刻,但這兩種工具都存在于具有固定邊界的系統(tǒng)中。這一推理思路與我的觀察相符:我所目睹的所有深度學(xué)習(xí)突破都發(fā)生在非常特定的領(lǐng)域,我們似乎沒有接近人工普遍智能之類的東西。
喬姆斯基還指出,越來越多的證據(jù)表明,人工神經(jīng)網(wǎng)絡(luò)不能準確地模擬人類的認知,大腦的計算系統(tǒng)是相對豐富的,涉及的內(nèi)容甚至可能擴展到細胞水平。
如果喬姆斯基是對的(就其價值而言,我認為他是對的),那么深度學(xué)習(xí)研究的進展意味著什么?歸根結(jié)底,人類的大腦并沒有什么神奇之處。它只是一種由原子組成的物理結(jié)構(gòu),因此完全有理由相信,在未來的某個時刻,我們可能能夠創(chuàng)造出一種具備一般智能能力的人工大腦。
盡管如此,目前的神經(jīng)網(wǎng)絡(luò)只提供了這種認知的模擬,而根據(jù)喬姆斯基的邏輯,如果我們不首先提高對有機神經(jīng)網(wǎng)絡(luò)運作方式的理解,我們就不可能到達下一個前沿。
道德相對主義
對現(xiàn)代數(shù)據(jù)科學(xué)家來說,人工智能的道德使用是一個顯著的擔(dān)憂,但有時,在一個具體的領(lǐng)域,這個概念可能有些模糊和主觀。喬姆斯基的工作不僅為深度學(xué)習(xí)的未來提供了一個獨特的技術(shù)視角,他的普遍語法也有著深刻的道德含義,因為語言是我們討論和解釋世界的方式。
例如,喬姆斯基的觀點是,上述先天神經(jīng)結(jié)構(gòu)排除了道德相對主義,而且肯定存在普遍的道德約束。道德相對主義有許多不同的流派,但其核心原則是倫理決定不存在客觀基礎(chǔ)。
道德相對主義者斷言,雖然我們可能會深深相信“奴隸制是不道德的”這樣的說法,但我們沒有經(jīng)驗的方法來向不同意這種觀點的人證明這一點,因為任何證明都必然依賴于價值判斷,而我們的價值觀最終是外生的,是由文化和經(jīng)驗決定的。
喬姆斯基認為,道德表現(xiàn)在大腦中,因此根據(jù)定義,道德是一個生物系統(tǒng)。所有的生物系統(tǒng)都在變化著(自然變化和受到不同的刺激),但它們也存在局限性。以人類的視覺系統(tǒng)為例:實驗表明,它具有一定的可塑性,是由經(jīng)驗塑造的(尤其是在幼兒時期)。
通過改變提供給人類視覺系統(tǒng)的數(shù)據(jù),你可以改變受體的分布,從而改變個體感知水平線和垂直線的方式。然而,你不能把人的眼睛變成昆蟲的眼睛,或者賦予某人看x光的能力。
根據(jù)喬姆斯基的理論,生物系統(tǒng)(包括道德)可以發(fā)生很大變化,但不是無限的。他接著說,即使你相信我們的道德是完全從文化中衍生出來,你仍然需要以同樣的方式獲得文化,就像你獲得任何系統(tǒng)一樣(這是普遍性的先天認知結(jié)構(gòu)的結(jié)果)。
我對這種解讀最初的保留意見是,如果我們假設(shè)道德只是“合并”(或同樣原始的東西)的結(jié)果,那么盡管這可能會施加理論上的約束,但我的直覺是,我們的道德可能會變化如此之大,以至于實際上不可能做出普遍的總結(jié)陳論。
過去,喬姆斯基討論過道德進步是如何遵循某些趨勢的(例如,接受差異,拒絕壓迫等),但很難看出這些廣泛的趨勢是如何從這樣簡單的原子認知結(jié)構(gòu)中持續(xù)出現(xiàn)的。
當(dāng)我把這一點告訴喬姆斯基教授時,他認為這種觀點是虛幻的,當(dāng)我們不理解事物時,它們看起來比它們實際的樣子更加多樣化和復(fù)雜。他舉了一個寒武紀大爆發(fā)以來動物體型變化的例子。
僅僅在60年前,生物學(xué)上的主流觀點是,有機體的差異如此之大,必須以個體為基礎(chǔ)進行研究,但我們現(xiàn)在知道,這是完全錯誤的,物種之間的遺傳變異相當(dāng)小。復(fù)雜獲得系統(tǒng)的變化必須是最小的,否則我們就無法獲得它們。