Nature:神經(jīng)網(wǎng)絡(luò)“舉一反三”能力甚至超人類
神經(jīng)網(wǎng)絡(luò)具有類似人的“舉一反三”能力,甚至超過(guò)人類水平???
最近刊于Nature的一篇論文表示找到了證據(jù)。
“舉一反三”的能力更專業(yè)點(diǎn)叫做系統(tǒng)性泛化能力。像小孩子一樣,一旦學(xué)會(huì)了如何“跳”,他們就可以理解如何“向后跳”、“繞錐體跳過(guò)兩次”。
要知道,早在1988年,認(rèn)知科學(xué)家Fodor、Pylyshyn就提出了系統(tǒng)性挑戰(zhàn),認(rèn)為人工神經(jīng)網(wǎng)絡(luò)缺乏這種能力。
Nature的這篇文章中表示,研究人員用一種叫做MLC的方法,通過(guò)在動(dòng)態(tài)變化的組合任務(wù)流中訓(xùn)練,神經(jīng)網(wǎng)絡(luò)可以獲得人類般的組合推理能力。
他們還將MLC和人類在相同的系統(tǒng)性泛化測(cè)試中進(jìn)行了比較。結(jié)果機(jī)器學(xué)習(xí)的系統(tǒng)性泛化基準(zhǔn)測(cè)試表明,MLC錯(cuò)誤率不到1%,并且還可以模擬人類的認(rèn)知偏見(jiàn)導(dǎo)致的錯(cuò)誤。
相比之下,GPT-4 在相同的任務(wù)中平均失敗率在42%到86%之間,具體取決于研究人員如何提出任務(wù)。
挑戰(zhàn)已存在35年的觀點(diǎn)
35年前,認(rèn)知科學(xué)家Fodor、Pylyshyn提出了一個(gè)著名的觀點(diǎn):
人工神經(jīng)網(wǎng)絡(luò)由于缺乏組合性,不太可能成為合理的認(rèn)知模型。
換句話說(shuō),人類語(yǔ)言和思維的精髓在于系統(tǒng)性組合,而神經(jīng)網(wǎng)絡(luò)只能表示特定的事物,缺乏這種系統(tǒng)性組合能力。
這個(gè)觀點(diǎn)引發(fā)學(xué)界激烈討論。其中反駁觀點(diǎn)主要集中于兩個(gè)方面。
一是盡管人類的組合技能很重要,但它們可能并不具有Fodor、Pylyshyn所說(shuō)的那樣的系統(tǒng)性和規(guī)則性。
二是雖然神經(jīng)網(wǎng)絡(luò)在基本形式上受到了限制,但使用復(fù)雜的架構(gòu)可以增強(qiáng)系統(tǒng)性。
雖然最近幾年,神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理等方面有了很大進(jìn)展和突破,相關(guān)辯論也隨之升級(jí)。
但時(shí)至今日,系統(tǒng)性的問(wèn)題仍沒(méi)有一個(gè)定論。
基于此,紐約大學(xué)心理與數(shù)據(jù)科學(xué)助理教授Brenden M. Lake、西班牙加泰羅尼亞研究所(ICREA)研究教授Marco Baroni提出了一種叫做MLC(meta-learning for compositionality)的元學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型。
具體來(lái)說(shuō),用的是一種通過(guò)特殊指導(dǎo)和人類示例來(lái)指定模型行為的方法,然后要求神經(jīng)網(wǎng)絡(luò)通過(guò)元學(xué)習(xí)獲得正確的學(xué)習(xí)技巧。
研究人員還表示,MLC使用的是標(biāo)準(zhǔn)的Seq2Seq架構(gòu),常見(jiàn)的神經(jīng)網(wǎng)絡(luò)并沒(méi)有添加符號(hào)機(jī)制,也沒(méi)有手動(dòng)設(shè)計(jì)內(nèi)部表示或歸納偏見(jiàn)。
舉個(gè)例子來(lái)說(shuō)明訓(xùn)練過(guò)程。如下圖所示,給神經(jīng)網(wǎng)絡(luò)模型一個(gè)“連續(xù)跳躍兩次”(skip twice)的指令。并用箭頭和小人來(lái)展示學(xué)習(xí)示例,告訴機(jī)器jump(跳)、skip(跳過(guò))、jump twice是怎樣的。
然后將輸出的skip twice和行為目標(biāo)比較:
類似情境,引入下一個(gè)詞“向后踮腳尖繞過(guò)一個(gè)錐體”,要求神經(jīng)網(wǎng)絡(luò)組合向后走(walk backwards)、踮腳尖(tiptoe)、繞錐體行走(walk around a cone)的動(dòng)作,推出如何“向后踮腳尖繞過(guò)一個(gè)錐體”。
機(jī)器VS人類
為了展示MLC方法的性能,研究人員對(duì)人類和機(jī)器在相同的系統(tǒng)性泛化測(cè)試中進(jìn)行了評(píng)估。
實(shí)驗(yàn)基于一個(gè)少樣本學(xué)習(xí)偽語(yǔ)言任務(wù)進(jìn)行,其中詞匯與特定的符號(hào)或顏色有關(guān)。
比如給出基本詞匯,“dax”是紅色,“wif”是綠色,“l(fā)ug”是藍(lán)色。
還有三個(gè)Function。Function 1中,“l(fā)ug fep” 代表三個(gè)藍(lán)色的連續(xù)圈圈,“dax fep” 代表三個(gè)紅色的連續(xù)圈圈。
Function 2代表的是交替,像“l(fā)ug blicket wif” 代表藍(lán)綠藍(lán)三個(gè)顏色的圈圈。
Function 3代表把輸出順序倒過(guò)來(lái),像“dax kiki lug” 代表藍(lán)紅(根據(jù)基本詞匯應(yīng)該是紅藍(lán))。
還可以組合不同的Function,比如“wif blicket dax kiki lug”是藍(lán)綠紅綠。
△MLC架構(gòu)
然后研究人員對(duì)25名人類的反應(yīng)和機(jī)器的反應(yīng)進(jìn)行了比較:
研究人員還測(cè)試了在不給出任何示例的情況下,人類和機(jī)器歸納這種方法后的輸出,為的是測(cè)驗(yàn)人類的歸納偏見(jiàn):
測(cè)試后的結(jié)果表明,人類能夠系統(tǒng)性地泛化,正確率約為80%,但也存在一些偏見(jiàn)。
而使用MLC方法機(jī)器可以達(dá)到或超過(guò)人類的系統(tǒng)性泛化水平。
MLC還可以預(yù)測(cè)哪些指令對(duì)人們來(lái)說(shuō)更容易或更難。
下圖展示了模型預(yù)測(cè)人類行為的log-likelihood值(用來(lái)判斷模型預(yù)測(cè)數(shù)據(jù)的好壞),數(shù)值越大表示模型的預(yù)測(cè)越準(zhǔn)確:
研究人員還在兩個(gè)常見(jiàn)的機(jī)器學(xué)習(xí)的系統(tǒng)性泛化基準(zhǔn)測(cè)試SCAN、 COGS中,著重關(guān)注MLC處理新單詞和單詞組合方面的表現(xiàn),結(jié)果顯示錯(cuò)誤率不到1%。
△在機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試中進(jìn)行系統(tǒng)性詞匯泛化的錯(cuò)誤率
他們還表示,在純粹的代數(shù)推理和模擬人類復(fù)雜組合行為的情況中,MLC還可以模擬人類的認(rèn)知偏見(jiàn)導(dǎo)致的錯(cuò)誤模式,這說(shuō)明神經(jīng)網(wǎng)絡(luò)是一種很好的建模工具。
引發(fā)熱議
美國(guó)圣達(dá)菲研究所的計(jì)算機(jī)與認(rèn)知科學(xué)家Melanie Mitchell表示:
這項(xiàng)研究是一個(gè)有趣的原理證明,但這種訓(xùn)練方法是否可以擴(kuò)展到更大的數(shù)據(jù)集甚至圖像,還有待觀察。
德國(guó)奧斯納布呂克大學(xué)自然語(yǔ)言處理專家Elia Bruni表示:
這項(xiàng)研究可以使神經(jīng)網(wǎng)絡(luò)更高效地學(xué)習(xí),將減少像ChatGPT等所需的訓(xùn)練數(shù)據(jù)量,并減少“幻覺(jué)”。
將系統(tǒng)性注入神經(jīng)網(wǎng)絡(luò)是一件大事,它可以同時(shí)解決這兩個(gè)問(wèn)題。
但也有網(wǎng)友指出:
人類的溝通是多樣且多層次的,可以從太多角度總結(jié) ,所以有必要持合理的懷疑態(tài)度,同時(shí)還需要證據(jù)和測(cè)試結(jié)果。
還有網(wǎng)友表示用這種方法能夠擊敗GPT-4是因?yàn)樘崾镜膯?wèn)題:
我覺(jué)得一名高級(jí)的提示工程師使用GPT-4可以達(dá)到正確率85%的效果?!案鶕?jù)研究人員如何呈現(xiàn)任務(wù),準(zhǔn)確率在42%到86%之間”這話確實(shí)會(huì)讓人產(chǎn)生疑慮。
考慮到主觀因素,希望他們能展示是如何提出這個(gè)任務(wù)的,至少比只給一句話要詳細(xì)。
論文鏈接:https://www.nature.com/articles/s41586-023-06668-3。
參考鏈接:
[1]https://www.nature.com/articles/d41586-023-03272-3。
[2]https://news.ycombinator.com/item?id=38017146。