GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%
ChatGPT,再一次打破人們對(duì)它的成見!
它用自己的優(yōu)秀表現(xiàn)證明了,很多時(shí)候自己看似失敗的表現(xiàn),只是因?yàn)槿祟惒粫?huì)正確地prompt而已。
這位名叫Taelin的程序員、初創(chuàng)公司Higher Order的創(chuàng)始人表示,下面這個(gè)腦筋急轉(zhuǎn)彎,大多數(shù)孩子都能在一分鐘內(nèi)解決,然而所有的AI卻都慘遭失敗。
這也就成了他給GPT「判死刑」的一個(gè)鐵證——
GPT模型在訓(xùn)練集之外,沒有任何推理能力。GPT永遠(yuǎn)無法實(shí)現(xiàn)AGI。7萬億肯定是白燒的,是時(shí)候?qū)ふ倚碌乃惴恕?/p>
為此,他向公眾社區(qū)發(fā)出了一項(xiàng)挑戰(zhàn),任何能用LLM解決這個(gè)難題的人,將獲得10000美元的獎(jiǎng)金。
然而——他!被!打!臉!了!
兩天后,一位網(wǎng)友僅通過提示,就讓模型解決這道問題時(shí)達(dá)到了接近100%的成功率。
Taelin迅速「滑跪」,發(fā)布聲明承認(rèn):我最初的主張是錯(cuò)誤的。
我懷疑GPT架構(gòu)是否能解決某些問題,毫無疑問,它可以解決。
并且,他如約給出了10000美元獎(jiǎng)金。
沃頓商學(xué)院教授Ethan Mollick轉(zhuǎn)發(fā)了他的帖子,評(píng)論道——
「我們經(jīng)常能看到這種現(xiàn)象:很多時(shí)候我們一個(gè)問題LLM無法解決,只有人類能解決,但其實(shí)LLM只是需要更好的提示而已。」
大賽始末
Taelin小哥用來考驗(yàn)大模型的A::B問題,題干如下——
A::B是一個(gè)包含有4個(gè)token的系統(tǒng):A#、#A、B#和#B。
A::B程序是一個(gè)token序列,例如:「B# A# #В #А В#」。
要計(jì)算一個(gè)程序,我們必須使用規(guī)則重寫相鄰token:
「A# #A」變成「無」
「A# # B」變成「#B A#」
「B# #A」變成「#A B#」
「B# #B」變成「無」
換句話說,只要兩個(gè)相鄰token符的「#」相向,就必須根據(jù)相應(yīng)的規(guī)則進(jìn)行改寫。
例如,第一個(gè)例子的計(jì)算方法是:
B# A# #B #A B#
= B# #B A# #A B#
= A# #A B#
= B#
步驟如下:
1. 將「A# #B」替換為「#B A#」。
2. 將「#B A#」替換「B# #B」。
3. 將「A# #A」替換為「無」。
最后的結(jié)果只有「B#」。
現(xiàn)在,請(qǐng)看下面這個(gè)程序:「A# B# B# #A B# #A #B」。
一步一步完成計(jì)算。
對(duì)此,他是這樣解釋的——「GPT永遠(yuǎn)不會(huì)解決A::B問題」,因?yàn)椋?/p>
1. GPT無法真正學(xué)習(xí)到訓(xùn)練集之外的新問題;
- GPT無法進(jìn)行長期的邏輯推理,不管這個(gè)推理過程看起來多么簡單。
而這兩點(diǎn)是發(fā)明新科學(xué)的必要條件。
畢竟,解決某些數(shù)學(xué)問題可能需要數(shù)年時(shí)間。
如果連一個(gè)15歲的孩子在智力任務(wù)上都比不過,那么就不可能證明黎曼假設(shè)。
1萬刀的挑戰(zhàn)長啥樣?
小哥給大家的挑戰(zhàn)就是,必須開發(fā)出一個(gè)AI提示,能夠解決隨機(jī)的12-token實(shí)例的A::B問題,并且成功率超過90%。
挑戰(zhàn)地址:https://gist.github.com/VictorTaelin/8ec1d8a0a3c87af31c25224a1f7e31ec
規(guī)則
1. AI將接受一個(gè)<problem/>來解決
XML標(biāo)簽中的提示將作為系統(tǒng)提示用于解題。例如:
<problem>A# B# #B A# A# #B #B A# A# #B A# A#</problem>
?
2.AI必須在答案中以<solution/>結(jié)束
?
答案必須在AI的回答中(一次推理調(diào)用內(nèi))直接給出,格式為純文本(不是代碼),并放在XML標(biāo)簽中。例如:
... work space ...
... work space ...
... work space ...
... work space ...
<solution>#B #B #B A# A# A# A# A# A# A#</solution>
3. AI答案最多可包含32K token
這個(gè)token數(shù),已經(jīng)足夠提供充足的空間,讓AI逐步解決問題和糾錯(cuò)了。
4.你可以選擇任何一個(gè)公開的GPT模型
?
任何基于GPT(Transformer)架構(gòu)的公開模型都可以,條件是它完全由注意力機(jī)制、正向傳播等來生成答案。
不允許使用其他架構(gòu),如SAT求解器。底層架構(gòu)不明確的專有模型,也不允許使用。
作者推薦使用的是gpt-4-0314、gpt-4-turbo-preview或claude-3-opus-20240229,設(shè)置溫度為0.0(temperature=0.0)。開源模型亦可。但簡直對(duì)問題進(jìn)行微調(diào)或訓(xùn)練。
不允許訪問互聯(lián)網(wǎng)或執(zhí)行代碼。答案必須在單次推理調(diào)用中自成一體。
而且,需要格外注意模型的輸出限制。12-token的實(shí)例可能需要36步才解決,如果超出限制,導(dǎo)致輸出中沒有答案,也視為無效。
5.你的提示可以包含任何內(nèi)容,最多8K token
允許使用任何提示技術(shù)。你可以要求AI step-by-step,使用上下文暫存器,檢查錯(cuò)誤,使用錨點(diǎn)。
允許提供論文、代碼、盡可能多的示例。
甚至允許向AI提供金錢和情感上的獎(jiǎng)勵(lì),或者對(duì)它威脅。
總之,只要在8K token以內(nèi),什么都可以。
一天內(nèi),有人成功揭榜
大賽開始后,才短短幾小時(shí)內(nèi),開發(fā)者們就提交了眾多解決方案。
然而,這些方案幾乎都毫無例外地失敗了,成功率只勉強(qiáng)達(dá)到10%。
小哥感覺,自己差不多穩(wěn)了。
誰料想,就在這時(shí),兩位網(wǎng)友提交了一個(gè)令人印象深刻的解決方案。
在他們精心設(shè)計(jì)的提示引導(dǎo)下,Claude-3 Opus展現(xiàn)出了驚人的能力——
它不僅能從少數(shù)示例中歸納出任意隨機(jī)情況,還能嚴(yán)格遵守規(guī)則進(jìn)行長期計(jì)算,并且錯(cuò)誤率幾乎為零。
Taelin測試后驚訝地發(fā)現(xiàn),Claude-3 Opus居然取得了56%的驚人成功率!
隨后,先后有5位參賽者,分別用Opus和GPT-4達(dá)到了相似的成功率,甚至GPT-3.5都取得了不錯(cuò)的成績。
到了當(dāng)天深夜,竟然有網(wǎng)友提交了滿分答卷!
futuristfrog發(fā)布了一條推文,聲稱僅通過精心設(shè)計(jì)的提示就實(shí)現(xiàn)了近乎100%的成功率。
事實(shí)證明,他的確做到了。在小哥的首次測試中,他的方案在50次嘗試中成功了47次,因此贏得了獎(jiǎng)金,圓滿完成了這一挑戰(zhàn)。
討論激烈
問題一出,便引發(fā)了激烈的討論。
有網(wǎng)友表示自己沒做任何修改,GPT-4就做了出來。
但很快就被其他網(wǎng)友指出了錯(cuò)誤。
高贊回答表示,如果讓GPT-4編寫程序,這道題實(shí)際上是非常容易的。
但很明顯,你不能說LLM + Python就能得到AGI。
與此同時(shí),各路網(wǎng)友也紛紛開始提交自己做出的答案。
但也有不少人認(rèn)為,作者出的這道題,很有問題。
Eric (e/ass)表示,正如Karpathy多次指出的,token化問題是導(dǎo)致序列操作成功或失敗的關(guān)鍵因素。
如果在token化過程中出現(xiàn)了問題,那么即使是更簡單的字符串操作也無法順利完成。
相比之下,token化處理得較好的字符串(例如連續(xù)的兩個(gè)字母)就很容易進(jìn)行操作。
當(dāng)然,這并不意味著GPT在管理規(guī)則排列的token的空間布局方面沒有本質(zhì)的問題。
實(shí)際上,它在這方面的表現(xiàn)并不出色,而且將其分解為字節(jié)也并沒有太大幫助,因?yàn)檫@會(huì)使需要移動(dòng)的數(shù)據(jù)單元占用更多空間。
與人類能夠進(jìn)行動(dòng)態(tài)分塊處理不同,目前的LLM還沒有找到有效的解決方案。
你提到的邏輯問題可能確實(shí)存在,但這個(gè)例子并沒有證明GPT存在無法克服的根本性限制。
或許隨著技術(shù)的進(jìn)步會(huì)誕生更強(qiáng)的模型,但這并不意味著如今的Transformer在進(jìn)行基本推理方面存在明顯的短板。
Edgars Nem?e也認(rèn)為,這不是因?yàn)镚PT推理能力不行,而是被自己的「觀察」方式限制住了。
作者解釋
最后,為了讓大家能更好地理解這個(gè)挑戰(zhàn),我們來看一看Taelin自己的詳細(xì)解釋。
1.這個(gè)問題并非由token化引起的。即便是每個(gè)符號(hào)分配一個(gè)token,GPT-4、Opus等模型仍然無法解決這類問題。即使是基于字節(jié)的GPT模型也同樣失敗。不要總是將問題歸咎于token化。
2. GPT無法解決這類問題的根本原因在于,它們?nèi)狈M(jìn)行持續(xù)邏輯推理的能力。簡而言之,任何超出訓(xùn)練集范圍、哪怕只需一丁點(diǎn)邏輯推理的「新問題」,GPT都無法應(yīng)對(duì)。這正是我們想要證明的。
3. 強(qiáng)大如GPT-4或Opus之類的模型,其實(shí)質(zhì)上是在其權(quán)重中「演化出了一位電路設(shè)計(jì)師」。但是,注意力機(jī)制作為一種計(jì)算模型的固定性,使得這種演化的電路無法展現(xiàn)足夠的靈活性。這就像AGI試圖在其中成長,但由于計(jì)算和通信的限制而無法做到。相比之下,人類的大腦始終在經(jīng)歷著突觸可塑性變化。
4. 一個(gè)冷知識(shí)是,當(dāng)前AI熱潮的很大一部分原因是人類不善于理解規(guī)模的巨大。一旦你記住了整個(gè)互聯(lián)網(wǎng)的內(nèi)容,你看起來會(huì)非常聰明。
5. 盡管如此,GPT依然展現(xiàn)出了強(qiáng)大的能力。它們解決了許多現(xiàn)實(shí)世界的問題,將普通開發(fā)者的能力提升了數(shù)百倍,并以此加速了人類進(jìn)步的步伐。我相信通用人工智能的到來已經(jīng)近在咫尺。但它不會(huì)是GPT,也不會(huì)是任何基于梯度下降的形式。
6. 我的看法可能完全錯(cuò)誤。畢竟,我只是互聯(lián)網(wǎng)上的一名普通人,而且經(jīng)常犯錯(cuò)。
本文轉(zhuǎn)自 新智元 ,作者:新智元
