Hinton和LeCun再交鋒,激辯LLM能否引發(fā)智能奇點!LeCun:人類理解能力碾壓GPT-4
AI大佬的激戰(zhàn)再次掀起。
Hinton在線直接點名LeCun,說他對AI接管風(fēng)險的看法對人類的影響微乎其微。
這意味著,他把自己的意見看得很重,而把許多其他同樣有資格的專家的意見看得很輕。
在Hinton看來,他們之間意見分歧的核心論點是「LLM是真正理解自己說什么」。
當(dāng)然了,一直站在末日派中的Hinton認(rèn)為大模型有了意識,而LeCun、吳恩達等人卻認(rèn)為LLM不明白自己所說。
對此,LeCun反駁道,大模型顯然對其閱讀和生成的內(nèi)容有「一些」理解,但這種理解是非常有限和膚淺的。
總的來說,目前自回歸大模型沒有對推理和規(guī)劃能力,遠(yuǎn)未及人類水平的智能。
恰在近日,LeCun發(fā)表了一篇新論文,再提自回歸LLM做得不好。
論文中,研究人員介紹了一個通用AI助手基準(zhǔn)GAIA。
其中提出了需要一系列基本能力的現(xiàn)實世界問題,比如推理、多模態(tài)處理、網(wǎng)頁瀏覽和一般的工具使用熟練程度。
論文地址:https://arxiv.org/pdf/2311.12983.pdf
結(jié)果表明,GAIA設(shè)計的問題對人類來說簡直輕而易舉,而對大多數(shù)高級AI來說卻很有挑戰(zhàn)性。
即,人類回答準(zhǔn)確率為92%,而用上插件的GPT-4回答準(zhǔn)確率僅為15%。
通用人工智能助手基準(zhǔn)——GAIA
GAIA的產(chǎn)生,既是因為需要修訂AI基準(zhǔn),也是因為發(fā)現(xiàn)了LLM評估的不足之處。
研究人員提出的通用人工智能助手的基準(zhǔn)——GAIA,包含了466個精心設(shè)計的問題和答案,以及相關(guān)的設(shè)計方法。
這些問題對AI系統(tǒng)具有挑戰(zhàn)性,大多數(shù)需要復(fù)雜的代數(shù)。
但又能給出唯一的、符合事實的答案,從而實現(xiàn)簡單而穩(wěn)健的自動評估。
GAIA問題示例
設(shè)計選擇
第一個原則:瞄準(zhǔn)概念上簡單但對人類來說可能乏味的問題。
這些問題多種多樣的,植根于現(xiàn)實世界,對當(dāng)前的人工智能系統(tǒng)具有挑戰(zhàn)性。
因此,這些問題的設(shè)計將重點放在基本能力上,如通過推理快速適應(yīng)、多模態(tài)理解和潛在的多樣化工具使用,而不是專業(yè)技能上。
問題一般包括查找和轉(zhuǎn)換從不同來源收集到的信息,如提供的文檔或開放且不斷變化的網(wǎng)絡(luò),從而得出準(zhǔn)確的答案。
第二個原則:可解釋性。
由于高度精選的問題數(shù)量有限,因此與匯總問題相比,該基準(zhǔn)更易于使用。
任務(wù)的概念簡單性(人類成功率為 92%)使得用戶很容易理解模型的推理軌跡。
第三個原則:對記憶的魯棒性。
為了完成一項任務(wù),GAIA系統(tǒng)必須計劃并成功地完成一些步驟,因為從當(dāng)前的訓(xùn)練前數(shù)據(jù)中,得到的答案是設(shè)計成純文本的。
第四個原則:易用性。
研究者的任務(wù)是附加文件的簡單提示。至關(guān)重要的是,問題的答案是事實,簡明和明確的。
這些特性允許簡單、快速和事實性的評估。
評估
GAIA的設(shè)計的評估是自動化的、快速的、真實的。
在實踐中,除非另有說明,否則每個問題都需要一個答案,這個答案要么是一個字符串(一個或幾個單詞) ,一個數(shù)字,要么是用逗號分隔的字符串或浮點列表。
每個問題,只有一個正確答案。
因此,評估是通過模型的答案和地面真值之間的準(zhǔn)確匹配來完成的。
如下圖,回答GAIA問題時,像GPT-4這樣的人工智能助手,需要完成幾個步驟,可能需要使用工具或者讀取文件。
GAIA的構(gòu)成
想要在GAIA上獲得完美的分?jǐn)?shù),大模型需要先進的推理能力、多模態(tài)的理解、編碼能力和一般的工具使用,例如網(wǎng)頁瀏覽。
根據(jù)解決問題所需步驟的數(shù)量和回答問題所需的不同工具的數(shù)量,可以將問題分為三個難度增加的級別。
- 1級問題通常不需要任何工具,或者最多只需要一個工具,但不超過5個步驟。
- 第2級問題通常涉及更多的步驟,大約在5到10之間,需要結(jié)合不同的工具。
- 第三級是一個近乎完美的普通助理的問題,需要采取任意長的動作序列,使用任意數(shù)量的工具,并進入一般的世界。
GPT-4表現(xiàn)如何
使用GAIA評估大型語言模型只需要具備向模型發(fā)出提示的能力,即API訪問權(quán)限。
研究人員在提問前使用一個前綴提示詞,以便于提取答案,具體參見下圖。
研究人員評估了GPT-4帶插件和不帶插件的版本,以及以GPT-4為后端的AutoGPT。
目前,GPT-4需要手動選擇插件。相反,AutoGPT能夠自動進行這一選擇。
研究人員采用的的非LLM基準(zhǔn)包括人類注釋者和網(wǎng)絡(luò)搜索。對于后者,他們在搜索引擎中輸入問題,并檢查是否能從搜索結(jié)果的第一頁中推導(dǎo)出答案。
這使他們能夠評估研究人員的問題答案是否可以輕松地在網(wǎng)絡(luò)上找到。只要API可用,就運行模型三次,并呈現(xiàn)得到的平均結(jié)果。
GPT-4插件
與GPT-4不同的是,目前還沒有帶插件的GPT-4 API,研究人員不得不手動進行ChatGPT查詢。
在撰寫本文時,用戶必須手動在一個高級數(shù)據(jù)分析模式(具有代碼執(zhí)行和文件讀取能力)和最多三個第三方插件之間進行選擇。研究人員根據(jù)任務(wù)給定的最重要功能的最佳猜測,選擇第一種模式或選擇第三方插件。研究人員通常依賴于:
(i)一個用于閱讀各種類型鏈接的工具,
(ii)一個網(wǎng)絡(luò)瀏覽工具,
(iii)一個用于計算的工具。
遺憾的是,目前無法在一段時間內(nèi)使用一組穩(wěn)定的插件,因為插件經(jīng)常更改或從商店中消失。
同樣,GPT-4的官方搜索工具也被移除,因為它可能繞過付費墻,但最近又重新推出。因此,研究人員對帶插件的GPT4的評分是GPT-4潛力的「預(yù)估」,是基于更穩(wěn)定和自動選擇插件的估計。
結(jié)果
研究人員的評估結(jié)果如下圖所示。
研究人員提出的難度等級,大致根據(jù)步驟數(shù)量和使用的不同能力數(shù)量定義,與當(dāng)前模型的性能相關(guān),增強了它們的有效性。
雖然人類在所有層面上表現(xiàn)出色,但當(dāng)前最好的LLM表現(xiàn)不佳。
總的來說,GAIA允許清晰地對有能力的助手進行排名,同時也為未來幾個月甚至幾年的改進留下了很大的空間。
人類通過網(wǎng)絡(luò)搜索可能會獲得文本結(jié)果,從中可以推斷出一級難度問題的正確答案,但當(dāng)涉及到稍微復(fù)雜一點的查詢時,這種方法就不那么有效了,并且比典型的大型語言模型(LLM)助手稍慢,因為用戶需要瀏覽首批搜索結(jié)果。
這證實了LLM助手作為搜索引擎的競爭者的潛力。
GPT-4在沒有插件的情況下的結(jié)果與其他情況的差異表明,通過工具API或訪問網(wǎng)絡(luò)增強LLM可以提高答案的準(zhǔn)確性,并解鎖許多新的用例,確認(rèn)了這一研究方向的巨大潛力。
特別是,GPT-4加上插件表現(xiàn)出了諸如回溯或查詢優(yōu)化等行為,當(dāng)結(jié)果不令人滿意時,以及相對較長的計劃執(zhí)行時間。
AutoGPT-4允許GPT-4自動使用工具,但其在二級難度,甚至與不帶插件的GPT-4相比,一級難度的結(jié)果也令人失望。這種差異可能來自AutoGPT-4依賴GPT-4 API(提示和生成參數(shù))的方式。
與其他LLM相比,AutoGPT-4也較慢??偟膩碚f,人類與帶插件的GPT4的合作似乎到目前為止提供了最佳的得分與所需時間比。
下圖顯示了按能力劃分的模型得分。
不出所料,GPT-4無法處理文件和多模態(tài)問題,但能夠解決注釋者使用網(wǎng)絡(luò)瀏覽解決的問題,主要是因為它正確地記住了需要結(jié)合起來才能得到答案的信息片段。