自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案 原創(chuàng)

發(fā)布于 2024-10-17 14:40
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

前沿的AI獨(dú)角獸公司們正在花費(fèi)所有精力使 LLM 更擅長推理。然而蘋果最近卻給他們潑了盆冷水。

近期,蘋果公司的一個(gè)六人研究團(tuán)隊(duì)最近發(fā)表了一篇題為《了解大型語言模型中數(shù)學(xué)推理的局限性》的論文,論文中各種基準(zhǔn)測試,十分詳實(shí)。不過最后的結(jié)論基本上就是想證明:當(dāng)前的 LLM 無法推理。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理。科技界炸鍋:大模型只會檢索拼湊答案-AI.x社區(qū)圖片

“當(dāng)前的 LLM 無法執(zhí)行真正的邏輯推理;他們從訓(xùn)練數(shù)據(jù)中復(fù)制推理步驟,“該論文中寫道,其中還包括 OpenAI 的 GPT-4o 等 LLM,甚至是備受吹捧的”思考和推理“LLM,o1。該研究還對一系列其他模型進(jìn)行了研究,例如 Llama、Phi、Gemma 和 Mistral。

該論文的資深作者 Mehrdad Farajtabar 在 X 上發(fā)帖解釋了該團(tuán)隊(duì)是如何得出結(jié)論的。據(jù)他介紹,LLM 只是遵循復(fù)雜的模式,即使是小于 30 億個(gè)參數(shù)的模型也達(dá)到了只有更大的模型才能更早達(dá)到的基準(zhǔn),特別是 OpenAI 三年前發(fā)布的 GSM8K 分?jǐn)?shù)。

Mehrdad10月10日在帖子中表示:

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

大型語言模型 (LLM) 真的能推理嗎?或者它們只是復(fù)雜的模式匹配器?

研究人員引入了 GSM-Symbolic,這是一種在 LLM 中測試數(shù)學(xué)推理的新工具,因?yàn)?GSM8K 不夠準(zhǔn)確,因此對于測試 LLM 的推理能力不可靠。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

一、4大證據(jù),證明大模型不具備形式推理能力

三年前,OpenAI 發(fā)布了 GSM8K 數(shù)據(jù)集(目前常用的一種小學(xué)數(shù)學(xué)推理基準(zhǔn)數(shù)據(jù)集),測試 GPT-3(175B參數(shù))在數(shù)學(xué)題上的表現(xiàn),那時(shí) GPT-3 的得分僅為 35%。如今,擁有約 30 億參數(shù)的模型已能夠在 GSM8K 測試中取得超過 85% 的得分,參數(shù)更大的模型甚至超過 95%。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

然而,隨著準(zhǔn)確率的提升,疑問也隨之而來:這些模型的推理能力是否真的進(jìn)步了?它們的表現(xiàn)是否真的體現(xiàn)了邏輯或符號推理能力,抑或是簡單的模式識別,數(shù)據(jù)污染,甚至過擬合的結(jié)果? 

為進(jìn)一步探索這一問題,研究團(tuán)隊(duì)此發(fā)了 GSM-Symbolic,用于測試大語言模型在數(shù)學(xué)推理中的極限。GSM-Symbolic 基于 GSM8K 數(shù)據(jù)集,通過符號模板生成多樣化的問題實(shí)例,允許更可控的實(shí)驗(yàn)設(shè)計(jì)。

為了更清晰地觀察模型在面對這些變體問題時(shí)的表現(xiàn),他們生成了 50 個(gè)獨(dú)特的 GSM-Symbolic 集合,這些問題與 GSM8K 問題類似,但更改了其中的數(shù)值和名稱。

基于 GSM-Symbolic,他們從 5 個(gè)方面說明了為何他們認(rèn)為大語言模型不具備形式推理能力。

1.GSM8K 的測試結(jié)果并不可靠

通過對多個(gè)開源模型(如 Llama 8B、Phi-3)和閉源模型(如 GPT-4o 和 o1 系列)的大規(guī)模評估,他們發(fā)現(xiàn)模型在 GSM8K 上的表現(xiàn)存在顯著波動(dòng)。

例如,Llama 8B 的準(zhǔn)確率在 70%-80% 之間波動(dòng),而 Phi-3 的表現(xiàn)則在 75%-90% 之間浮動(dòng)。這也表明,模型在處理相似問題時(shí)表現(xiàn)并不穩(wěn)定,GSM8K 上的高分并不能證明它們具備真正的推理能力。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

圖|由 GSM-Symbolic 模板生成的 50 套 8-shot 思想鏈(CoT)性能分布,顯示了所有 SOTA 模型之間準(zhǔn)確性的顯著差異性。對于大多數(shù)模型來說,GSM-Symbolic 的平均性能低于 GSM8K(圖中由虛線表示)。有趣的是,GSM8K 的性能落在分布的右側(cè),從統(tǒng)計(jì)學(xué)上講,這僅有非常低的可能性,因?yàn)?GSM8K 基本上只是 GSM-Symbolic 的一次單一抽樣。

2.大模型的數(shù)學(xué)推理能力相當(dāng)脆弱敏感

團(tuán)隊(duì)觀察到由相同模板生成的不同集合之間存在較大的性能差異,并且與原始GSM8K準(zhǔn)確率相比性能有所下降。這表明語言模型所展現(xiàn)的推理過程可能并不正式,因此容易受到變化的影響。一種解釋是,這些模型試圖進(jìn)行一種分布內(nèi)模式匹配,將給定的問題和解題步驟與訓(xùn)練數(shù)據(jù)中看到的類似問題和步驟進(jìn)行對齊。由于此過程不涉及正式推理,因此可能導(dǎo)致同一問題的不同實(shí)例之間存在較大差異。

具體測試表現(xiàn)為:對名稱和數(shù)字變動(dòng)的敏感性研究還發(fā)現(xiàn),當(dāng)前的大語言模型對問題中的專有名稱(如人名、食物、物品)的變化仍然很敏感,當(dāng)數(shù)字發(fā)生變化時(shí),大語言模型就會更加敏感。例如,僅僅改變問題中的名字,就可能導(dǎo)致模型的準(zhǔn)確率變化高達(dá) 10%。如果將這種情況類比到小學(xué)數(shù)學(xué)測試中,僅僅因?yàn)楦淖兞巳嗣鴮?dǎo)致分?jǐn)?shù)下降 10% ,是非常不可思議的。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

圖|當(dāng)只更改名稱、專有編號或同時(shí)更改名稱和編號時(shí),大語言模型的敏感性如何?總體而言,即使只更改名稱,模型也有明顯的性能變化,但當(dāng)更改編號或合并這些變化時(shí),性能差異更大。問題難度的增加導(dǎo)致表現(xiàn)急劇下降。

3.擴(kuò)展問題難度,性能分布波動(dòng)劇烈

研究團(tuán)隊(duì)通過引入三種新的 GSM-Symbolic 變體(GSM-M1、GSM-P1、GSM-P2),通過刪除一個(gè)分句(GSM-M1)、增加一個(gè)分句(GSM-P1)或增加兩個(gè)分句(GSM-P2),來調(diào)整問題難度。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖|通過修改條款數(shù)量來修改 GSM-Symbolic 的難度級別

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)

圖|增加條款數(shù)量對性能的影響:隨著GSM-M1→GSM-Symb→GSM-P1→GSM-P2的難度增加,性能分布向左移動(dòng)(即準(zhǔn)確性下降),方差增加。

結(jié)果發(fā)現(xiàn),隨著問題難度的增加(GSM-M1 → GSM-Symb → GSM-P1 → GSM-P2),模型的表現(xiàn)不僅下降顯著,且表現(xiàn)波動(dòng)也變得更加劇烈。面對更復(fù)雜的問題時(shí),模型的推理能力變得更加不可靠。

4.大模型沒有真正理解數(shù)學(xué)概念

研究中還添加無關(guān)子句,實(shí)驗(yàn)表明對LLM推理性能的巨大影響,研究團(tuán)隊(duì)設(shè)計(jì)了 GSM_NoOp 實(shí)驗(yàn),在原有問題中添加一個(gè)似乎相關(guān)但實(shí)際無關(guān)的子句 (hence "no-op")。

結(jié)果顯示,所有模型的表現(xiàn)都顯著下降,包括性能較好的 o1 模型在內(nèi)。這種現(xiàn)象進(jìn)一步說明,模型并沒有真正理解數(shù)學(xué)概念,而是通過模式匹配來得出答案。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖|在 GSM-NoOp 上,模型的性能明顯下降,較新的模型比舊的模型下降更大。

(a) 在GSM-NoOp上,模型的性能顯著下降,其中較新的模型比舊模型下降得更多。(b) GSM-Symbolic上的性能與GSM8K非常接近。然而,在GSM-NoOp上,即使使用完全相同問題的變體作為示例(NoOp-Symb),或者使用包含No-Op操作的不同GSM-NoOp問題的不同問題作為示例(NoOp-NoOp),性能顯著下降的情況也無法恢復(fù)。(c) 值得注意的是,一些在GSM8K和GSM-Symbolic上表現(xiàn)明顯差于(b)中模型的,在NoOp-Symb上卻表現(xiàn)出了更好的性能。

5.擴(kuò)展規(guī)模和計(jì)算能力并不能解決根本問題

此外,他們還探討了通過擴(kuò)大數(shù)據(jù)、模型規(guī)?;蛴?jì)算能力是否能夠解決推理能力不足的問題。Mehrdad Farajtabar 表示,盡管 OpenAI 的 o1 系列在性能上有一定改善,但它們也會出現(xiàn)這樣的愚蠢錯(cuò)誤,要么是它不明白“現(xiàn)在”是什么意思,要么是它不明白“去年”是什么意思,還有一種更可能的解釋是,更大的訓(xùn)練數(shù)據(jù)具有這種模式,所以它又沿用了這種模式。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

圖|o1-mini 和 o1-preview 的結(jié)果:這兩個(gè)模型大多遵循我們在正文中介紹的相同趨勢。然而,o1-preview 在所有難度級別上都顯示出非常強(qiáng)大的結(jié)果,因?yàn)樗蟹植级急舜私咏?/p>

作者認(rèn)為,理解大語言模型的真正推理能力對于在現(xiàn)實(shí)世界中的應(yīng)用至關(guān)重要,尤其是在 AI 安全、教育、醫(yī)療保健和決策系統(tǒng)等對準(zhǔn)確性和一致性要求極高的領(lǐng)域。

研究結(jié)果表明,當(dāng)前大語言模型的表現(xiàn),更像是高級的模式匹配器,而非具備形式推理能力的系統(tǒng)。為了在這些領(lǐng)域安全、可靠地部署大語言模型,開發(fā)更為魯棒和適應(yīng)性強(qiáng)的評估方法顯得尤為重要。

二、不過,OpenAI 的o1模型的推理的確強(qiáng)勁

令人驚訝的是,根據(jù)研究人員的說法,在這個(gè)基準(zhǔn)測試中,OpenAI 的 o1 表現(xiàn)出“在各種推理和基于知識的基準(zhǔn)測試中的強(qiáng)勁表現(xiàn)”,但當(dāng)研究人員引入 GSM-NoOp 實(shí)驗(yàn)時(shí),能力下降了 30%,該實(shí)驗(yàn)涉及向問題添加不相關(guān)的信息。PS:上個(gè)月OpenAI推出o1模型時(shí)也曾表示,提示詞宜簡單而非復(fù)雜。


這證明 OpenAI 這一系列新發(fā)布的模型的“推理”能力是越來越好的,也許 GPT-5 會好很多。


然而,可能是 Apple 的 LLM 在推理方面不太拿得出手,該團(tuán)隊(duì)沒有測試 Apple 的模型。

三、科技圈又亂了:大模型壓根不會推理,o1也不行

此外,并不是每個(gè)人都對這篇研究論文感到滿意,因?yàn)樗踔翛]有解釋 “推理 ”的真正含義,而只是引入了一個(gè)評估 LLM 的新基準(zhǔn)。

“總體而言,我們在語言模型中沒有發(fā)現(xiàn)形式推理的證據(jù)……它們的行為更好地解釋為復(fù)雜的模式匹配——實(shí)際上非常脆弱,以至于改變名稱可能會使結(jié)果變化約10%!”Mehrdad 進(jìn)一步補(bǔ)充道,擴(kuò)展這些模型只會得到“更好的模式機(jī)器”,而不是“更好的推理器”。

首先,LLM更多是根據(jù)分散注意力的材料來進(jìn)行“推理”,所以這種失敗,并不是什么新鮮事。斯坦福大學(xué)的 Robin Jia Percy Liang 早在 2017 年進(jìn)行了一項(xiàng)類似的研究,結(jié)果相似。

其次,LLM 中缺乏足夠抽象、正式的推理的另一個(gè)表現(xiàn)是,大模型往往在解決小問題上的性能還可以,但隨著問題變大,性能很快就會下降,甚至分崩離析,正如7月 Subbarao Kambhapati 的團(tuán)隊(duì)最近對 GPT o1 的分析:

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

在整數(shù)算術(shù)上也能看到同樣的問題。在較舊的模型和較新的模型中,都反復(fù)觀察到,在越來越大的乘法問題上,答案準(zhǔn)確度的衰減。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

一些人一直聲稱大型語言模型(LLMs)無法進(jìn)行推理,并且它們是通往通用人工智能(AGI)的歧途??赡芴O果在嘗試將大型語言模型應(yīng)用于其產(chǎn)品后終于接受了這一事實(shí),這也可能是它退出對OpenAI投資的原因之一。

即便是目前最先進(jìn)的o1模型,也不能解決這個(gè)問題。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

再有,Gary Marcus 還指出,大模型不遵守國際象棋規(guī)則。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

大多數(shù)研究人員都在贊揚(yáng)蘋果的這篇論文,并認(rèn)為其他人接受大型語言模型無法進(jìn)行推理這一點(diǎn)也很重要。大型語言模型的長期批評者加里·馬庫斯也分享了多個(gè)大型語言模型無法執(zhí)行推理任務(wù)(如計(jì)算和象棋)的例子。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

四、反對者:這是真的嗎?論文作者混淆了概念

但這是真的嗎?大型語言模型真的不會推理嗎?

不過,反對這一論文結(jié)果的也大有人在。

有人認(rèn)為,蘋果論文的一個(gè)問題是它將推理與計(jì)算混淆了?!巴评硎侵烙盟惴▉斫鉀Q問題,而不是全部在腦海中解決,”人工智能研究者Paras Chopra解釋道,同時(shí)他也指出,盡管大多數(shù)大型語言模型(LLMs)最終得出了錯(cuò)誤的答案,但它們確實(shí)知道解決問題的方法。他認(rèn)為,即使答案錯(cuò)誤,知道解決問題的方法也足以檢查大型語言模型是否在進(jìn)行推理。

一篇在Hacker News上的討論強(qiáng)調(diào),蘋果公司的研究人員向大型語言模型(LLMs)提出的一些問題試圖“捉弄”它們,因?yàn)檫@些問題中包含了不相關(guān)的信息,而大型語言模型無法主動(dòng)過濾掉這些信息。

撤出OpenAI后,蘋果繼續(xù)潑冷水:大模型不會推理??萍冀缯ㄥ仯捍竽P椭粫z索拼湊答案-AI.x社區(qū)圖片

推理是在知識領(lǐng)域中逐步、迭代地減少信息熵的過程。OpenAI的o1-preview通過引入迭代更好地實(shí)現(xiàn)了這一點(diǎn)。它并不完美,但確實(shí)做到了。

亞利桑那州立大學(xué)(ASU)計(jì)算機(jī)科學(xué)和人工智能教授 Subbarao Kambhampati同意,關(guān)于大型語言模型具備推理能力的一些說法是夸大其詞的。然而,他表示,大型語言模型需要更多的工具來處理系統(tǒng)2任務(wù)(即推理),而“微調(diào)”或“思維鏈”等技術(shù)并不足以滿足這一需求。

當(dāng)OpenAI發(fā)布o(jì)1模型,并宣稱該模型能夠思考和推理時(shí),Hugging Face的首席執(zhí)行官Clem Delangue并不買賬?!坝忠淮?,一個(gè)AI系統(tǒng)并不是在‘思考’,而是在‘處理’、‘運(yùn)行預(yù)測’……就像谷歌或電腦所做的那樣,”Clem 在談到OpenAI如何錯(cuò)誤地描繪其最新模型所能實(shí)現(xiàn)的功能時(shí)說道。

雖然一些人表示贊同,但另一些人則認(rèn)為這正是人類大腦的工作方式?!坝忠淮危祟惖拇竽X并不是在‘思考’,而只是在執(zhí)行一系列復(fù)雜的大規(guī)模生物化學(xué)/生物電計(jì)算操作,”Phillip Rhodes回復(fù)德朗格道。

為了測試推理能力,有些人還會問大型語言模型(LLMs)單詞“Strawberry”中有多少個(gè)“r”,這完全沒有意義。大型語言模型無法直接計(jì)算字母數(shù)量,因?yàn)樗鼈兪且苑Q為“標(biāo)記”的文本塊來處理文本的。自大型語言模型誕生以來,對它們的推理測試就一直存在問題。

五、寫在最后

每個(gè)人對大型語言模型似乎都有強(qiáng)烈的看法。一些人基于Yann LeCun或弗朗索瓦·肖萊(Francois Chollet)等專家的研究,認(rèn)為應(yīng)該更認(rèn)真地對待大型語言模型的研究;而另一些人則跟風(fēng)批評。有人說它們是我們通往通用人工智能(AGI)的門票,而另一些人則認(rèn)為它們只是被美化的、有著花哨名字的文本生成算法。

相比之下,AI大神Andrej Karpathy最近表示,這些大型語言模型或Transformer所使用的預(yù)測下一個(gè)token的技術(shù),或許能夠解決其他領(lǐng)域之外的許多問題。

雖然在某種程度上,大型語言模型確實(shí)能夠進(jìn)行推理,但一旦將它們付諸實(shí)踐進(jìn)行測試,最終還是會失敗。這并不是什么新鮮事,反而是一種機(jī)會:機(jī)器還取代不了人類!

??本文轉(zhuǎn)載自???51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦