自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華姚班校友等揭Transformer致命缺陷,OpenAI科學(xué)家緊急回應(yīng):學(xué)術(shù)界節(jié)奏太慢

人工智能 新聞
一篇報(bào)道,在AI圈掀起軒然大波。文中引用了近2年前的論文直擊大模型死穴——Transformer觸及天花板,卻引來OpenAI研究科學(xué)家的緊急回應(yīng)。

誰能想到,一篇于2023年發(fā)表的LLM論文,竟然在一年半之后又「火」了。

聊天機(jī)器人開始面臨根本性的限制

論文中,來自Ai2、華盛頓大學(xué)等機(jī)構(gòu)研究人員稱,Transformer在組合能力上存在限制。

以基本的乘法為例,讓「GPT-4」計(jì)算兩個(gè)三位數(shù)的乘積,最初的正確率僅有59%。當(dāng)乘數(shù)增加到4位數(shù)時(shí),準(zhǔn)確率直接暴降到4%。

論文地址:https://arxiv.org/abs/2305.18654

與此同時(shí),Quanta Magazined還在報(bào)道中引用了曾是哥大博士的彭炳輝于2024發(fā)表的論文,去論證Transformer存在著根本性的限制。

論文地址:https://arxiv.org/abs/2402.08164

論文地址:https://arxiv.org/abs/2412.02975

一作彭炳輝和導(dǎo)師同樣驗(yàn)證了,由于Transformer缺乏組合能力,由此導(dǎo)致LLM產(chǎn)生了幻覺。

他們指出,「如果一個(gè)大模型只有單層Transformer結(jié)構(gòu),總參數(shù)量小于域的大小,AI便無法解決組合任務(wù)」。

實(shí)際上,這些研究本身并沒有什么,但QM卻稱之為「最近」。評(píng)論區(qū)瞬間被網(wǎng)友們吐槽淹沒了。

OpenAI研究員Noam Brown直言,「學(xué)術(shù)界研究節(jié)奏相對(duì)較慢,而LLM領(lǐng)域大發(fā)展速度遠(yuǎn)超其慣常步調(diào)」。

DeepMind研究科學(xué)家對(duì)此進(jìn)行了反駁,我們?cè)?-5位的算數(shù)運(yùn)算上仍未達(dá)到完美的水平。

這些論文中的觀點(diǎn),如今都還成立嗎?

四位數(shù)相乘,GPT-4正確率4%

艾倫人工智能研究所的科學(xué)家Nouha Dziri及其團(tuán)隊(duì),對(duì)以ChatGPT為代表LLM進(jìn)行測(cè)試,讓它們嘗試解決這類邏輯難題,模型的表現(xiàn)并不理想。

Dziri指出,當(dāng)面對(duì)復(fù)雜任務(wù)時(shí),LLM很難依據(jù)訓(xùn)練數(shù)據(jù)之外的信息進(jìn)行推理,只能做近似推斷,極有可能出錯(cuò)。

需要整合多個(gè)子問題的答案,才能得出最終結(jié)果的任務(wù)被稱為組合性任務(wù)。

Nouha Dziri團(tuán)隊(duì)研究發(fā)現(xiàn),大部分LLM僅依靠預(yù)測(cè)序列中的下一個(gè)詞進(jìn)行訓(xùn)練,在應(yīng)對(duì)組合性推理任務(wù)時(shí),存在根本性缺陷。

多數(shù)LLM采用的Transformer架構(gòu),在處理這類問題時(shí),會(huì)受到數(shù)學(xué)層面的限制。

盡管科學(xué)家在突破Transformer的限制方面取得了一定成果,但這些成果越來越像是權(quán)宜之計(jì)。

這類模型存在基礎(chǔ)計(jì)算瓶頸,或許是時(shí)候考慮轉(zhuǎn)變研究思路了。

「這項(xiàng)研究的真正目的,是幫助學(xué)界判斷,Transformer是否是適合通用學(xué)習(xí)的架構(gòu)?!辜~約大學(xué)的機(jī)器學(xué)習(xí)專家Andrew Wilson說道。

OpenAI的o1和GPT-4、谷歌的Gemini、Anthropic的Claude,是在幾乎所有能獲取到的互聯(lián)網(wǎng)數(shù)據(jù)上進(jìn)行訓(xùn)練的。

LLM掌握了語法,積累了大量的語義知識(shí)。這些經(jīng)過預(yù)訓(xùn)練的模型,還能進(jìn)一步訓(xùn)練或優(yōu)化,完成更復(fù)雜的任務(wù),像總結(jié)復(fù)雜文檔,生成游戲代碼。

它強(qiáng)大到仿佛真的會(huì)推理,但同時(shí)也在一些方面表現(xiàn)得極差,笨得讓人吃驚。

以基礎(chǔ)乘法運(yùn)算為例,像ChatGPT和GPT-4這樣常見的LLM表現(xiàn)糟糕。

2023年初,Dziri團(tuán)隊(duì)對(duì)GPT-4進(jìn)行測(cè)試,讓它計(jì)算兩個(gè)三位數(shù)相乘,最初的正確率僅為59%。當(dāng)計(jì)算兩個(gè)四位數(shù)相乘時(shí),準(zhǔn)確率更是急劇下降,只剩下4%。

團(tuán)隊(duì)還測(cè)試了LLM在謎題任務(wù)上的表現(xiàn),結(jié)果同樣不理想。

當(dāng)謎題是兩座房子,每座房子對(duì)應(yīng)兩個(gè)屬性時(shí),GPT-4還能每次都答對(duì)。但當(dāng)謎題難度升級(jí)為四座房子,每座房子對(duì)應(yīng)四個(gè)屬性時(shí),正確率就銳減至10%。

《國際生活》上的原始謎題版本,也就是五座房子,每座房子對(duì)應(yīng)五個(gè)屬性的情況,GPT-4的正確率直接歸零。

Dziri認(rèn)為「它只是在模仿自己見過的東西,并沒有真正理解?!?/span>

LLM存在難以突破的限制

與此同時(shí),另一個(gè)研究團(tuán)隊(duì)采用了不同的方法,來理解LLM為什么在處理組合性任務(wù)時(shí)會(huì)遇到困難。

當(dāng)時(shí),正在哥大讀博的彭炳輝與導(dǎo)師Christos Papadimitriou等人一起研究LLM為什么會(huì)產(chǎn)生幻覺,生成與事實(shí)不符的錯(cuò)誤信息。

下面三張圖中的例子,分別展示了LLM在空間構(gòu)成、時(shí)間構(gòu)成和關(guān)系構(gòu)成上產(chǎn)生的幻覺。

對(duì)此,團(tuán)隊(duì)?wèi)岩稍蛟谟赥ransformer缺乏「組合能力」。

假設(shè)給LLM輸入兩條信息:一是弗雷德里克·肖邦的父親是尼古拉·肖邦,二是尼古拉·肖邦出生于1771年4月15日。然后問它:弗雷德里克·肖邦的父親的出生日期是什么?

這時(shí),LLM需要把這兩條信息整合起來,才能作答。

實(shí)際上,它要解答的是一個(gè)嵌套問題,先找出弗雷德里克·肖邦的父親是誰,再回答這個(gè)人的出生日期。

要是LLM給出的答案不對(duì),出現(xiàn)了所謂的「幻覺」,很可能就是因?yàn)樗鼪]能成功完成這種組合性任務(wù)。

為了驗(yàn)證這個(gè)猜想,團(tuán)隊(duì)首先研究了一種簡單Transformer的特性。

這種模型只有一層,在預(yù)測(cè)下一個(gè)單詞時(shí),會(huì)根據(jù)句子中單詞的順序和位置來判斷?,F(xiàn)代LLM通常包含多層這樣的結(jié)構(gòu)。

團(tuán)隊(duì)找到了Transformer層的復(fù)雜程度和域大小(也就是表示問題所需的比特?cái)?shù))之間的聯(lián)系。

通過研究這個(gè)簡單模型,他們證明了一個(gè)數(shù)學(xué)限制條件。

如果單層Transformer的總參數(shù)數(shù)量小于域的大小,從理論上來說,Transformer就解決不了組合性任務(wù)。

僅有一個(gè)Transformer層的LLM,在數(shù)學(xué)層面存在明顯的局限性。

雖說這是一個(gè)很有說服力的理論成果,但它的實(shí)際影響還不明確,因?yàn)楝F(xiàn)代LLM要復(fù)雜得多。

于是,團(tuán)隊(duì)換了一種方法來研究更復(fù)雜的Transformer的能力。他們運(yùn)用計(jì)算復(fù)雜性理論,通過分析解決問題所需的時(shí)間、內(nèi)存等資源,來探究問題的本質(zhì)。

他們借助一個(gè)著名的猜想證實(shí),即使是多層Transformer在解決復(fù)雜的組合性問題時(shí),計(jì)算能力也存在限制。

2024年12月,彭炳輝和加州大學(xué)伯克利分校的研究員發(fā)表了一項(xiàng)證明。這次,他們拋開計(jì)算復(fù)雜性理論的猜想,直接證實(shí)了多層Transformer確實(shí)無法解決某些復(fù)雜的組合性任務(wù)。

彭炳輝說:「模型規(guī)模增大后,確實(shí)能解決更具挑戰(zhàn)性的問題。但要是同時(shí)擴(kuò)大問題的規(guī)模,就算模型變得更大,解決起來照樣棘手?!?/span>

這充分表明,Transformer架構(gòu)存在著難以逾越的局限性。

但這并不意味著LLM的終結(jié)。

紐約大學(xué)的Wilson指出,雖然存在這些局限性,研究人員已經(jīng)開始改進(jìn)Transformer,幫助它們更好地處理包括算術(shù)在內(nèi)的各類問題。

馬里蘭大學(xué)的計(jì)算機(jī)科學(xué)家Tom Goldstein和他的同事在給Transformer輸入數(shù)字時(shí)做了些調(diào)整,他們?cè)诿總€(gè)數(shù)字里嵌入額外的位置信息,再訓(xùn)練加法運(yùn)算模型。

經(jīng)過20位數(shù)訓(xùn)練的模型,在進(jìn)行100位數(shù)加法時(shí),準(zhǔn)確率能穩(wěn)定達(dá)到98%;而沒有嵌入額外位置信息的模型,準(zhǔn)確率只有3%左右。

這表明,也許有一些基礎(chǔ)的改進(jìn)方法可以采用,這樣就能在這些問題上取得重大進(jìn)展,而無需重新設(shè)計(jì)整個(gè)架構(gòu)。

除了擴(kuò)大模型規(guī)模,還有一種克服LLM局限性的辦法,就是在提示中給出問題的逐步解決步驟,即思維鏈提示。

研究顯示,這種方法能讓GPT-4這類LLM,具備解決更多相關(guān)任務(wù)的能力。

斯坦福大學(xué)博士生Haotian Ye表示:「我們很好奇,為什么它這么有效,能帶來這么多突破?!?/span>

他在北大讀本科時(shí),就曾對(duì)比過Transformer在使用思維鏈提示與否時(shí)的表現(xiàn)。

他們借助計(jì)算機(jī)科學(xué)的另一分支——電路復(fù)雜性理論進(jìn)行論證,解釋了思維鏈提示是如何把一個(gè)大問題拆解成一系列小問題,進(jìn)而讓Transformer處理更復(fù)雜的組合性任務(wù)。

不過Haotian Ye也提醒,這并不意味著模型用了思維鏈提示,就真能解決這些難題。

這項(xiàng)研究關(guān)注的是理論能力,而模型的訓(xùn)練方式,決定了它們能在多大程度上發(fā)揮出這一理論上限。

LLM本質(zhì)上是在匹配以前見過的模式,它們的能力受到數(shù)學(xué)限制。嵌入技巧和思維鏈提示,只是拓展了它們處理更復(fù)雜模式匹配的能力。

從數(shù)學(xué)原理來看,總能找到一些組合性任務(wù),其復(fù)雜程度超出了給定系統(tǒng)的處理能力。

Dziri表示:「我們必須徹底弄清楚模型內(nèi)部是如何運(yùn)作的。要是能搞明白它們執(zhí)行任務(wù)和推理的方式,或許就能對(duì)它們進(jìn)行優(yōu)化改進(jìn)。要是不清楚,那就真的很難開展任何工作了?!?/span>

作者介紹

彭炳輝,現(xiàn)任加州大學(xué)伯克利分校西蒙斯研究所的博士后研究員。此前,在哥倫比亞大學(xué)獲得博士學(xué)位,導(dǎo)師是Xi Chen和Christos Papadimitriou。并在清華大學(xué)姚班獲得學(xué)士學(xué)位。

彭炳輝的研究領(lǐng)域廣泛,涉及機(jī)器學(xué)習(xí)理論、博弈論以及理論計(jì)算機(jī)科學(xué)。最近,他尤其關(guān)注計(jì)算理論與AI之間的相互作用。 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-11-22 05:47:29

人工智能AI深度學(xué)習(xí)

2025-01-14 17:23:08

2016-09-22 16:30:17

ITPythonSQL queries

2023-06-02 13:23:27

谷歌研究

2023-03-05 18:17:21

AI競賽學(xué)術(shù)界

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2023-03-16 17:26:09

AI模型

2012-12-06 15:36:55

CIO

2022-04-01 10:38:32

開源

2025-02-19 14:58:30

2017-04-12 19:49:43

連尚網(wǎng)絡(luò)國際萬維網(wǎng)大會(huì)WWW2017

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2022-11-03 14:13:24

騰訊科學(xué)家

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2025-01-22 15:14:57

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2019-01-08 16:25:42

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2023-11-16 16:41:36

AI 模型

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)