吵翻天!ChatGPT到底懂不懂語言?PNAS:先研究什么是「理解」吧
機(jī)器會不會思考這個問題就像問潛水艇會不會游泳一樣。——Dijkstra
早在ChatGPT發(fā)布之前,業(yè)界就已經(jīng)嗅到了大模型帶來的變革。
去年10月14日,圣塔菲研究所(Santa Fe Institute)的教授Melanie Mitchell和David C. Krakauer在arXiv發(fā)布了一篇綜述,全面調(diào)研了所有關(guān)于「大規(guī)模預(yù)訓(xùn)練語言模型是否可以理解語言」的相關(guān)爭論,文中描述了「正方」和「反方」的論點,以及根據(jù)這些論點衍生的更廣泛的智力科學(xué)的關(guān)鍵問題。
論文鏈接:https://arxiv.org/pdf/2210.13966.pdf
發(fā)表期刊:《美國科學(xué)院院報》(PNAS)
太長不看版:
支持「理解」的主要論點是大型語言模型能夠完成許多似乎需要理解后才能完成的任務(wù)。
反對「理解」的主要論點是,以人類的角度來看,大型語言模型的理解力非常脆弱,比如無法理解prompt間的微妙變化;并且語言模型也沒有現(xiàn)實世界的生活經(jīng)驗來驗證他們的知識,多模態(tài)的語言模型可能會緩解這個問題。
最關(guān)鍵的問題在于,目前還沒有人對「什么是理解」有一個可靠的定義,并且也不知道如何測試語言模型的理解能力,用于人類的測試不一定適用于測試大型語言模型的理解能力。
總之,大型語言模型能夠理解語言,但可能是以一種不同于人類的理解方式。
研究人員認(rèn)為,可以開發(fā)一種新的智力科學(xué),深入研究不同的理解類型,找出不同理解模式的優(yōu)勢和局限性,同時整合不同理解形式產(chǎn)生的認(rèn)知差異。
論文的第一作者M(jìn)elanie Mitchell是Santa Fe研究所的教授,她于1990年博士畢業(yè)于密歇根大學(xué),導(dǎo)師為侯世達(dá)(《哥德爾、艾舍爾、巴赫:集異璧之大成》的作者)和約翰霍蘭德,她的主要研究方向為類比推理、復(fù)雜系統(tǒng)、遺傳算法和細(xì)胞自動機(jī)。
到底什么叫做「理解」?
「何為理解」一直困擾著哲學(xué)家、認(rèn)知科學(xué)家和教育家,研究人員經(jīng)常以人類或其他動物作為「理解能力」的參照物。
直到最近,隨著大規(guī)模人工智能系統(tǒng)的興起,特別是大型語言模型(LLM)的出現(xiàn),在人工智能界掀起了一場激烈的辯論,即現(xiàn)在是否可以說機(jī)器已經(jīng)能夠理解自然語言,從而理解語言所描述的物理和社會情況。
這不是一場單純的學(xué)術(shù)辯論,機(jī)器理解世界的程度和方式對于人類能在多大程度上信任AI能夠執(zhí)行駕駛汽車、診斷疾病、照顧老人、教育兒童等任務(wù),以便在人類有關(guān)的任務(wù)中采取有力且透明的行動。
目前的辯論表明,學(xué)術(shù)界在如何思考智能系統(tǒng)中的理解方面存在著一些分歧,特別是在依靠「統(tǒng)計相關(guān)性」和「因果機(jī)制」的心智模型(mental models)中,分歧更加明顯。
不過,人工智能研究界對機(jī)器理解仍然達(dá)成了普遍共識,即,雖然人工智能系統(tǒng)在許多特定任務(wù)中表現(xiàn)出看似智能的行為,但它們并不像人類那樣理解它們所處理的數(shù)據(jù)。
比如說,面部識別軟件并不能理解面部是身體的一部分,也不理解面部表情在社會互動中的作用,更不能理解人類是如何以近乎無窮種方式來使用面部概念的。
同樣,語音轉(zhuǎn)文字和機(jī)器翻譯程序也并不理解它們所處理的語言,自動駕駛系統(tǒng)也不理解司機(jī)和行人用來避免事故的微妙眼神接觸或肢體語言的含義。
事實上,這些人工智能系統(tǒng)經(jīng)常被提及的脆性(brittleness),即不可預(yù)測的錯誤和缺乏穩(wěn)健的泛化能力,是評估AI理解力的關(guān)鍵指標(biāo)。
在過去的幾年里,大型語言模型(LLMs)在人工智能領(lǐng)域的受眾和影響力激增,也改變了一些人對機(jī)器理解語言前景的看法。
大型預(yù)訓(xùn)練模型,也可以叫做基礎(chǔ)模型(Foundation Models)是具有數(shù)十億到上萬億個參數(shù)(權(quán)重)的深度神經(jīng)網(wǎng)絡(luò),在海量自然語言語料庫(包括網(wǎng)絡(luò)文本、在線圖書等)上進(jìn)行「預(yù)訓(xùn)練」后得到。
模型在訓(xùn)練期間的任務(wù)是預(yù)測輸入句子中的缺失部分,所以這種方法也叫做「自監(jiān)督學(xué)習(xí)」,由此產(chǎn)生的網(wǎng)絡(luò)是一個復(fù)雜的統(tǒng)計模型,可以得到訓(xùn)練數(shù)據(jù)中的單詞和短語之間是如何相互關(guān)聯(lián)的。
這種模型可以用來生成自然語言,并為特定的自然語言任務(wù)進(jìn)行微調(diào),或者進(jìn)一步訓(xùn)練以更好地匹配「用戶意圖」,不過對于非專業(yè)人士和科學(xué)家來說,語言模型到底如何完成這些任務(wù)的,仍然是個謎。
神經(jīng)網(wǎng)絡(luò)的內(nèi)部運行原理在很大程度上是不透明的,即使是構(gòu)建這些網(wǎng)絡(luò)的研究人員對這種規(guī)模的系統(tǒng)的直覺也是有限的。
神經(jīng)科學(xué)家Terrence Sejnowski這樣描述LLMs的涌現(xiàn)能力(emergence):
突破了某個閾值后,就好像外星人一下子出現(xiàn)了,可以用一種可怕的、人類交流的方式與我們交流。目前只有一件事是清楚的,大型語言模型并非人類,它們行為的某些方面似乎是智能的,但如果不是人類的智能,它們的智能的本質(zhì)是什么?
支持理解派VS反對理解派
盡管大型語言模型展現(xiàn)出的性能讓人震撼,但最先進(jìn)的LLMs仍然容易受到脆性和非人類錯誤的影響。
不過可以觀察到,網(wǎng)絡(luò)性能隨著其參數(shù)數(shù)量和訓(xùn)練語料規(guī)模的擴(kuò)大而有明顯改善,這也使得該領(lǐng)域的一些研究者聲稱,只要有足夠大的網(wǎng)絡(luò)和訓(xùn)練數(shù)據(jù)集,語言模型(多模態(tài)版本)也許是多模式版本--將導(dǎo)致人類水平的智能和理解。
一個新的人工智能口號已經(jīng)出現(xiàn):唯一要做的就是提升模型規(guī)模(Scale is all you need)!
這種說法也體現(xiàn)了人工智能研究界關(guān)于大型語言模型的爭論:
一派認(rèn)為,語言模型能夠真正理解語言,并能以通用的方式進(jìn)行推理(盡管還沒有達(dá)到人類的水平)。
例如,谷歌的LaMDA系統(tǒng)在文本上進(jìn)行了預(yù)訓(xùn)練,然后在對話任務(wù)上進(jìn)行了微調(diào),能夠在非常廣泛的領(lǐng)域內(nèi)與用戶進(jìn)行對話。
另一派認(rèn)為,像GPT-3或LaMDA這樣的大型預(yù)訓(xùn)練模型,無論它們的語言輸出多么流暢,都不能擁有理解力,因為這些模型沒有實踐經(jīng)驗,也沒有世界的心智模型。
語言模型只是在預(yù)測大量文本集合中的單詞方面的訓(xùn)練讓它們學(xué)會了語言的形式,遠(yuǎn)遠(yuǎn)沒有學(xué)會語言背后的意義。
僅靠語言訓(xùn)練的系統(tǒng)永遠(yuǎn)不會接近人類的智慧,即使從現(xiàn)在起一直訓(xùn)練到宇宙消亡為止。很明顯,這些系統(tǒng)注定只能是淺層次的理解,永遠(yuǎn)無法接近我們在人類身上看到的全身心的思考。
另一位學(xué)者認(rèn)為,在談?wù)撨@些系統(tǒng)時,智能、智能體以及推而廣之的理解是錯誤的,語言模型實際上是人類知識的壓縮庫,更類似于圖書館或百科全書,而不是智能體。
例如,人類知道「癢」讓我們發(fā)笑是什么意思,因為我們有身體;語言模型可以使用「癢」這個詞,但它顯然沒有過這種感覺,理解「癢」是將一個詞映射到一種感覺上,而不是映射到另一個詞。
那些站「LLMs沒有理解能力」一派的人認(rèn)為,雖然大型語言模型的流暢性令人驚訝,但我們的驚訝反映了我們對統(tǒng)計相關(guān)性在這些模型的規(guī)模上能生成什么缺乏直覺。
2022年對自然語言處理社區(qū)的活躍研究人員進(jìn)行的一項調(diào)查報告顯示了這場辯論中的明顯分歧。
當(dāng)詢問480名受訪者是否同意關(guān)于LLMs是否能在原理上理解語言的說法,即「只對文本進(jìn)行訓(xùn)練的生成式語言模型,只要有足夠的數(shù)據(jù)和計算資源,就能在某種意義上理解自然語言」
調(diào)查結(jié)果五五開,一半(51%)同意,另一半(49%)不同意。
機(jī)器的理解不同于人類
雖然參與「LLM理解能力」辯論的雙方都有充分的直覺來支持各自的觀點,但目前可用來深入了解理解力的且基于認(rèn)知科學(xué)的方法并不足以回答關(guān)于LLM的這類問題。
事實上,一些研究人員已經(jīng)將心理測試(最初是為了評估人類的理解和推理機(jī)制)應(yīng)用于LLMs,發(fā)現(xiàn)在某些情況下,LLMs確實在思想理論測試中表現(xiàn)出類似人類的反應(yīng),以及在推理評估中表現(xiàn)出類似人類的能力和偏見。
雖然這些測試被認(rèn)為是評估人類泛化能力的可靠智能體,但對于人工智能系統(tǒng)來說可能不是這樣。
大型語言模型有一種特別的能力來學(xué)習(xí)其訓(xùn)練數(shù)據(jù)和輸入中的token之間的相關(guān)性,并且可以使用這種相關(guān)性來解決問題;相反,人類使用反映其現(xiàn)實世界經(jīng)驗的壓縮概念。
當(dāng)把為人類設(shè)計的測試應(yīng)用于LLMs時,對結(jié)果的解釋可能依賴于對人類認(rèn)知的假設(shè),而這些假設(shè)對這些模型來說可能根本不真實。
為了取得進(jìn)展,科學(xué)家們將需要開發(fā)新的基準(zhǔn)和探測方法,以了解不同類型的智能和理解的機(jī)制,包括我們所創(chuàng)造的新形式的「奇異的、類似心靈的實體」,目前也已經(jīng)有了一些相關(guān)工作。
隨著模型規(guī)模越來越大,能力更強的系統(tǒng)被開發(fā)出來后,關(guān)于LLMs中的理解能力的爭論強調(diào)了我們需要「擴(kuò)展我們的智能科學(xué)」,以便使得「理解」是有意義的,無論是對人還是機(jī)器都是如此。
神經(jīng)科學(xué)家Terrence Sejnowski指出,專家們對LLMs智能的不同意見表明,我們基于自然智能的舊觀念是不夠的。
如果LLMs和相關(guān)模型通過利用前所未有的規(guī)模的統(tǒng)計相關(guān)性就能獲得成功,也許可以被認(rèn)為是一種「新的理解形式」, 一種能夠?qū)崿F(xiàn)非凡的、超人的預(yù)測能力的形式,例如DeepMind的AlphaZero和AlphaFold系統(tǒng),它們分別給下棋和蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域帶來了一種「外來」的直覺形式。
因此可以說,近年來,人工智能領(lǐng)域創(chuàng)造了具有新的理解模式的機(jī)器,很可能是一個全新的概念,隨著我們在追求智能的難以捉摸的本質(zhì)方面取得進(jìn)展,這些新概念將繼續(xù)得到豐富。
那些需要大量編碼的知識、對性能要求很高的問題將會繼續(xù)促進(jìn)大規(guī)模統(tǒng)計模型的開發(fā),而那些擁有有限知識和強大因果機(jī)制的問題將有利于理解人類智能。
未來的挑戰(zhàn)是開發(fā)新的科學(xué)方法,以揭示不同形式的智能的詳細(xì)理解機(jī)制,辨別它們的優(yōu)勢和局限,并學(xué)習(xí)如何整合這些真正不同的認(rèn)知模式。
參考資料:?
https://www.pnas.org/doi/10.1073/pnas.2215907120