(AI的兩種路線)
侯世達在1995年預言,
(在人工智能)基于邏輯的形式方法是死路一條。一一侯世達1995
(AI)The logic-based formal approach is a dead end.一一Hofstadter1995
10年后,預言成真了,20年后的今天,侯世達預言的Analogy Intelligence已經(jīng)隨著Alpha Go的出現(xiàn),占有人工智能幾乎全部的主要成果。
人工智能教父Hinton在BBVA獲獎時說,AI的兩種路線之爭,是一場50年的戰(zhàn)爭。
(Hinton的戰(zhàn)爭宣言)
當然,最終以基于類比Analogy的路線勝利而告一段落。
1、發(fā)軔:神經(jīng)網(wǎng)絡是騙子
人工神經(jīng)網(wǎng)絡ANN,簡稱神經(jīng)網(wǎng)絡NN,是模仿大腦神經(jīng)網(wǎng)絡的結構而建立的一種人工智能模型,神經(jīng)網(wǎng)絡由大量的神經(jīng)元聯(lián)結進行計算,通過外部信息,改變其內(nèi)部的結構,這是一種自適應過程,或者叫做學習過程。
神經(jīng)網(wǎng)絡最開始是由Warren S. McCulloch和Walter Pitts在1943年引入的,最初是用一種閥值的算法,創(chuàng)造一種神經(jīng)網(wǎng)絡的計算模型。
(圖片來自chaipp0607)
不過這位McCulloch一開始就被當做騙子,Jack Cowan回憶說:
圖靈確實跟McCulloch見過面,認為他是個騙子。如果你不了解McCulloch,你可能很容易地得到McCulloch是騙子的印象。
Turing actually met McCulloch at one time and thought he was a charlatan, but I think he simply underestimated McCulloch, in many ways. You could easily get the impression that McCulloch was a charlatan if you didn't know better. by Jack D. Cowan
當時由于缺乏計算資源,模型無法測試。直到1958年,F(xiàn)rank Rosenblatt創(chuàng)建了可以進行模式識別的感知器模型,感知器Perceptron,是那時候神經(jīng)網(wǎng)絡的代稱,不過,現(xiàn)狀仍然沒有任何改變,當時連計算機都還在實驗室呢,這些早期研究連測試環(huán)境都找不到。
2、冰封三十年:神經(jīng)網(wǎng)絡注定失敗
大概在1959年,即感知器模型發(fā)明10年后,Marvin Minsky和Seymour Papert出版了一本書《Perceptrons》,分析了感知器(及其代表的單層神經(jīng)網(wǎng)絡)模型的局限。書中稱,沒有人能夠訓練它解決一個基本的異或XOR問題,所以,感知器模型注定失敗。由于《Perceptrons》的巨大影響,幾乎冰封神經(jīng)網(wǎng)絡研究30年。
后來有人總結當時神經(jīng)網(wǎng)絡的兩個障礙。一是因為它局部無法有效的求導,二是因為當時人們都相信大腦類似于電腦一樣,神經(jīng)元類似于數(shù)碼元件,輸出是0和1。前一個是技術局限,后一個是觀念問題。反向傳播(使用鏈式求導法則反向傳遞誤差數(shù)據(jù))發(fā)明者Werbos后來回憶說:
1971年,我去找Marvin Minsky,說我有一個方法,可以解決神經(jīng)網(wǎng)絡的這些問題,我寫成了論文。Minsky說我不想做描述這個新方法的論文的共同作者。Minsky本可以分享反向傳播的榮譽,但他說,我不想做這個,它會把我從殿堂上趕出來,我會失去MIT的地位。我不能冒這么大的風險,因為每個人都認為神經(jīng)元是輸出0/1的,很多人現(xiàn)在還是這么認為的。 by Paul J. Werbos
(反向傳播,多層神經(jīng)網(wǎng)絡的基礎算法)
3、分裂:神經(jīng)網(wǎng)絡不靠譜
1993年左右,Vapnik等發(fā)明了一種核技巧kernel trick,可以將一般類型關系的數(shù)據(jù)實例直接映射到高維,從而很容易的找到分離平面,然后再回到低維。
(訓練點的三維映射)
當時比較有效的核方法是支持向量機SVM。SVM的發(fā)明者Vapnik把搞神經(jīng)網(wǎng)絡的人罵慘了,說搞人工智能的有兩種人,一種是靠譜的,一種就是搞神經(jīng)網(wǎng)絡的。
直到2006年,神經(jīng)網(wǎng)絡通過深度學習的模型(多層神經(jīng)網(wǎng)絡模型),終于出了成果。不過Vapnik仍然堅持說深度學習是使用暴力Brute Force,沒有理論指導,是惡魔的行事方式,與智能無關。
不過后來Bengio談到,Vapnik的SVM本質上使用一種叫做Smooth的先在策略巧妙越過了機器學習中的局部最小值問題,所以,2000年左右效果比神經(jīng)網(wǎng)絡要好很多。而神經(jīng)網(wǎng)絡訓練復雜,一直沒有找到好的策略,統(tǒng)計派一直炮轟神經(jīng)網(wǎng)絡的局部最小值問題,直到后來使用了梯度下降的方法。當然,Bengio仍然沒有給出神經(jīng)網(wǎng)絡的形式化方法。
4、責難:神經(jīng)網(wǎng)絡是煉金術
2006年,Hinton的兩個學生,實現(xiàn)了語音識別最近30年來最大的突破。2009年,圖像識別突破。2012年,谷歌引入了Hinton作為谷歌大腦的科學家,然后一系列神經(jīng)網(wǎng)絡的技術實用化,包含2015年Youtube的自動字幕、2016年的Google Translate、2017年的Alpha Go等等。
不過,即便如此,對神經(jīng)網(wǎng)絡的責難一直沒有停止過。來源于不止是人工智能內(nèi)部,還包含數(shù)學、統(tǒng)計學、神經(jīng)生物學、認知科學。其中最有趣的說法就是,神經(jīng)網(wǎng)絡是煉金術。
(機器學習是煉金術ML is alchemy,Ali Rahimi NIPS 2017,Ben Recht 2017)
后來成為那個知名的梗,效果是有了,但沒有人都知道是怎么做到的。
5、兩種路線:神經(jīng)網(wǎng)絡是荒謬的幻想
Hinton在2017年BBVA獲獎演講中談到神經(jīng)網(wǎng)絡曲折的發(fā)展歷程,
50多年來,人工智能的兩個愿景之間發(fā)生了爭執(zhí),受邏輯啟發(fā)的經(jīng)典觀點認為,智能是關于推理的,而且為了使系統(tǒng)能夠在現(xiàn)實世界中合理的推理,我們需要手工輸入大量事實,并且還應該在應用它們時,輸入大量的推理和啟發(fā)式規(guī)則。競爭對手的觀點是我們應該關注生物學,并嘗試模仿大腦的神經(jīng)網(wǎng)絡,特別是我們應該關注這些網(wǎng)絡如何從經(jīng)驗中學習,以便我們就不必手動指定所有知識。神經(jīng)網(wǎng)絡方法被大多數(shù)人工智能研究者認為是一種荒謬的幻想。一一Hinton
Over 50 years there was a battle between two visions of artificial intelligence, the classical view inspired by logic was that intelligence was all about reasoning and that to make systems that reason sensibly in the real world we would need to enter a very large number of facts by hand, and also a large number of rules for when they should be applied. The rival view was that we should try to mimic the neural networks of the brain. In particular we should focus on how these networks learned from experience so that we would not have to specify all the knowledge by hand. The neural network approach was regarded as a ridiculous fantasy by most people in AI. by Hinton
這云淡風輕的描述中,我們其實完全看不到這場“戰(zhàn)爭”的真實情況,《人工智能教父Hinton懟戰(zhàn)記》一文簡要介紹其中三種對神經(jīng)網(wǎng)絡有啟發(fā)性的討論,但也沒有還原當時的實際狀況。這不是蘇士侃所著的《黑洞戰(zhàn)爭》所描述那種小兒科的賭斗,而真是很慘烈的“戰(zhàn)爭”。
面對“戰(zhàn)爭”,我們不禁要問,為什么?這不就是一種非主流的技術經(jīng)過幾十年努力成為主流嗎,為什么還會有一場“戰(zhàn)爭”呢?
因為這不是表面看來解決某個具體問題,而是涉及到更深層次的范式?jīng)_突。它是邏輯和類比的之間的路線沖突,而這種新的人工智能AI,可以稱為“Analogy Intelligence”。
6、范式?jīng)_突
“范式?jīng)_突”是張恩文談到人工智能的兩種路線之爭時的隨言。不過它涉及到科學的構建、智能的意義。
科學Science一詞來源于拉丁文scientia,意為知識,總的來說,科學就是我們認識世界的知識的集合。到了現(xiàn)代,經(jīng)過幾千年的努力,我們構建了一整個蔚為壯觀的知識的大廈,它建立在形式科學Formal Science的基石之上,包含數(shù)學、邏輯、理論計算機科學。沒有這個基石,我們就無法用一種精確的方式認識和描述世界,建立生物學、物理學等自然科學;我們也無法以同樣的方式認識和描述社會,建立經(jīng)濟學、心理學、社會學。
形式科學,雖然是有局限的,但目前我們還沒有有效替代它的方法。證明了形式科學有其局限的哥德爾,就把“每件事都有意義”(哥德爾認為它嚴格相似于每件事情之后都有原因),作為他最重要的觀點。即便我們用科學否定了實在reality(愛因斯坦之后時間和空間就不再是自然律了),我們?nèi)匀幌嘈?,我們的科學大廈如此堅實,至少要比reality堅實。哪怕仍然還有未知存在,但“我們終將知道,我們必將知道”(Hilbert)。
然而,動搖還是發(fā)生了。
(圖靈:
來自未知世界的消息 1954
III 宇宙是創(chuàng)造之光錐的內(nèi)景
IV 科學是微分方程,宗教是邊界條件
Arthur Stanley
)
圖靈說,我們并不理解我們創(chuàng)造出來的東西。哪怕通過神經(jīng)網(wǎng)絡得出了我們預期的結果,我們?nèi)圆恢浪侨绾喂ぷ鞯?,我們只是知道初始條件、參數(shù),但我們并不能用一種形式化科學,我們能理解的形式將它表示出來。
過去,雖然經(jīng)過很長的時間(比如300年),我們?nèi)匀徽业搅艘唤M公式,如牛頓三定律,對過去行星運動數(shù)據(jù)進行表示,而且通過它預測其未來運行?,F(xiàn)在,我們可以預測某種數(shù)據(jù)模型,卻不再能寫出公式和其推導過程,即形式化表示。Bengio的框架是,“共享現(xiàn)實輸入-表示狀態(tài)-意識狀態(tài)-語言(符號)”,每一層次增加的抽象,即對應更為復雜的計算過程。這種過程可以被重現(xiàn),卻不可簡化為日常交流的有限個可記憶或可記錄的公式。它甚至對日常的不借助外部輔助設備的我們而言,是不可理解的。
在一個人工智能panel上,
主持人:我們按照這種方法制造的AI,有一個副作用,它是不能逆向工程分解的。我們將在這種技術上面全速前進,以產(chǎn)生出最具智能、最大容量、最快速、以及(或許是)所有這些,那么是否我們就面臨著一個問題:為了試圖去理解我們建造的東西,你就得知道他們內(nèi)部到底是如何工作的?
Hinton:我認為我們不會完全理解這些家伙是如何思考的,這也是圖靈所相信的。實際上,圖靈相信我們不是圖靈機,我們是神經(jīng)網(wǎng)絡。他做了一些關于神經(jīng)網(wǎng)絡的早期工作,我不太記得他在某個地方說過,我們不會知道他們是怎么工作的。
Sutton:好啦,我們也不理解我們本身是怎么工作的。
(“我們可以建模特朗普,但我們不能建模希拉里”出自同一Panel)
甚至,神經(jīng)網(wǎng)絡并不是如同我們預期的那樣,基于邏輯(或邏輯上不可能),而是基于類比analogy。所以,它與傳統(tǒng)的科學進路有著根本沖突,它是反直覺的,這也是它一直不被重視,一直不被理智采納,一直被壓制,一直被圍攻的原因。
但也許,我們應該回過頭來,重新認識我們自己。我們自身并不是基于邏輯的動物,我們只不過是依靠類比工作的設備。
我們不過是使用類比工作的設備,它比說我們依靠推理工作,更為根本。一一Hinton
I just say we are devices that work by using analogies and that's much more basic to how we work than reasoning。
by Hinton
7、結語:科學將要消亡,而技術永生
我們現(xiàn)在稱之為科學的這套東西,也許,在不久的將來會直接失效,直接消亡。系統(tǒng)化的理論,還是工具主義。是我們自己的局限而已。
而技術最終會獨立于科學更加飛速的發(fā)展,我們并不一定需要有一種科學來理解技術的狀況。也許仍然會誕生一種技術的解釋,用我們局限的認知,去理解技術的發(fā)展,我們?nèi)匀豢梢苑Q之為科學。