自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%

發(fā)布于 2024-4-9 09:31
瀏覽
0收藏

ChatGPT,再一次打破人們對(duì)它的成見!


它用自己的優(yōu)秀表現(xiàn)證明了,很多時(shí)候自己看似失敗的表現(xiàn),只是因?yàn)槿祟惒粫?huì)正確地prompt而已。


這位名叫Taelin的程序員、初創(chuàng)公司Higher Order的創(chuàng)始人表示,下面這個(gè)腦筋急轉(zhuǎn)彎,大多數(shù)孩子都能在一分鐘內(nèi)解決,然而所有的AI卻都慘遭失敗。


這也就成了他給GPT「判死刑」的一個(gè)鐵證——


GPT模型在訓(xùn)練集之外,沒有任何推理能力。GPT永遠(yuǎn)無法實(shí)現(xiàn)AGI。7萬億肯定是白燒的,是時(shí)候?qū)ふ倚碌乃惴恕?/p>

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

為此,他向公眾社區(qū)發(fā)出了一項(xiàng)挑戰(zhàn),任何能用LLM解決這個(gè)難題的人,將獲得10000美元的獎(jiǎng)金。


然而——他!被!打!臉!了!


兩天后,一位網(wǎng)友僅通過提示,就讓模型解決這道問題時(shí)達(dá)到了接近100%的成功率。

Taelin迅速「滑跪」,發(fā)布聲明承認(rèn):我最初的主張是錯(cuò)誤的。


我懷疑GPT架構(gòu)是否能解決某些問題,毫無疑問,它可以解決。

并且,他如約給出了10000美元獎(jiǎng)金。


沃頓商學(xué)院教授Ethan Mollick轉(zhuǎn)發(fā)了他的帖子,評(píng)論道——


「我們經(jīng)常能看到這種現(xiàn)象:很多時(shí)候我們一個(gè)問題LLM無法解決,只有人類能解決,但其實(shí)LLM只是需要更好的提示而已。」

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

大賽始末

Taelin小哥用來考驗(yàn)大模型的A::B問題,題干如下——

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

A::B是一個(gè)包含有4個(gè)token的系統(tǒng):A#、#A、B#和#B。


A::B程序是一個(gè)token序列,例如:「B# A# #В #А В#」。


要計(jì)算一個(gè)程序,我們必須使用規(guī)則重寫相鄰token:


「A# #A」變成「無」

「A# # B」變成「#B A#」

「B# #A」變成「#A B#」

「B# #B」變成「無」


換句話說,只要兩個(gè)相鄰token符的「#」相向,就必須根據(jù)相應(yīng)的規(guī)則進(jìn)行改寫。

例如,第一個(gè)例子的計(jì)算方法是:


B# A# #B #A B#

= B# #B A# #A B#

= A# #A B#

= B#


步驟如下:


1. 將「A# #B」替換為「#B A#」。

2. 將「#B A#」替換「B# #B」。

3. 將「A# #A」替換為「無」。

最后的結(jié)果只有「B#」。


現(xiàn)在,請(qǐng)看下面這個(gè)程序:「A# B# B# #A B# #A #B」。


一步一步完成計(jì)算。


對(duì)此,他是這樣解釋的——「GPT永遠(yuǎn)不會(huì)解決A::B問題」,因?yàn)椋?/p>


1. GPT無法真正學(xué)習(xí)到訓(xùn)練集之外的新問題;

  1. GPT無法進(jìn)行長期的邏輯推理,不管這個(gè)推理過程看起來多么簡單。


而這兩點(diǎn)是發(fā)明新科學(xué)的必要條件。


畢竟,解決某些數(shù)學(xué)問題可能需要數(shù)年時(shí)間。


如果連一個(gè)15歲的孩子在智力任務(wù)上都比不過,那么就不可能證明黎曼假設(shè)。


1萬刀的挑戰(zhàn)長啥樣?


小哥給大家的挑戰(zhàn)就是,必須開發(fā)出一個(gè)AI提示,能夠解決隨機(jī)的12-token實(shí)例的A::B問題,并且成功率超過90%。

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

挑戰(zhàn)地址:https://gist.github.com/VictorTaelin/8ec1d8a0a3c87af31c25224a1f7e31ec

規(guī)則

1. AI將接受一個(gè)<problem/>來解決


XML標(biāo)簽中的提示將作為系統(tǒng)提示用于解題。例如:

<problem>A# B# #B A# A# #B #B A# A# #B A# A#</problem>

?

2.AI必須在答案中以<solution/>結(jié)束

?

答案必須在AI的回答中(一次推理調(diào)用內(nèi))直接給出,格式為純文本(不是代碼),并放在XML標(biāo)簽中。例如:

... work space ...
... work space ...
... work space ...
... work space ...
<solution>#B #B #B A# A# A# A# A# A# A#</solution>

3. AI答案最多可包含32K token


這個(gè)token數(shù),已經(jīng)足夠提供充足的空間,讓AI逐步解決問題和糾錯(cuò)了。


4.你可以選擇任何一個(gè)公開的GPT模型

?

任何基于GPT(Transformer)架構(gòu)的公開模型都可以,條件是它完全由注意力機(jī)制、正向傳播等來生成答案。


不允許使用其他架構(gòu),如SAT求解器。底層架構(gòu)不明確的專有模型,也不允許使用。


作者推薦使用的是gpt-4-0314、gpt-4-turbo-preview或claude-3-opus-20240229,設(shè)置溫度為0.0(temperature=0.0)。開源模型亦可。但簡直對(duì)問題進(jìn)行微調(diào)或訓(xùn)練。


不允許訪問互聯(lián)網(wǎng)或執(zhí)行代碼。答案必須在單次推理調(diào)用中自成一體。


而且,需要格外注意模型的輸出限制。12-token的實(shí)例可能需要36步才解決,如果超出限制,導(dǎo)致輸出中沒有答案,也視為無效。


5.你的提示可以包含任何內(nèi)容,最多8K token


允許使用任何提示技術(shù)。你可以要求AI step-by-step,使用上下文暫存器,檢查錯(cuò)誤,使用錨點(diǎn)。


允許提供論文、代碼、盡可能多的示例。


甚至允許向AI提供金錢和情感上的獎(jiǎng)勵(lì),或者對(duì)它威脅。


總之,只要在8K token以內(nèi),什么都可以。


一天內(nèi),有人成功揭榜

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

大賽開始后,才短短幾小時(shí)內(nèi),開發(fā)者們就提交了眾多解決方案。


然而,這些方案幾乎都毫無例外地失敗了,成功率只勉強(qiáng)達(dá)到10%。


小哥感覺,自己差不多穩(wěn)了。


誰料想,就在這時(shí),兩位網(wǎng)友提交了一個(gè)令人印象深刻的解決方案。


在他們精心設(shè)計(jì)的提示引導(dǎo)下,Claude-3 Opus展現(xiàn)出了驚人的能力——

它不僅能從少數(shù)示例中歸納出任意隨機(jī)情況,還能嚴(yán)格遵守規(guī)則進(jìn)行長期計(jì)算,并且錯(cuò)誤率幾乎為零。


Taelin測試后驚訝地發(fā)現(xiàn),Claude-3 Opus居然取得了56%的驚人成功率!


隨后,先后有5位參賽者,分別用Opus和GPT-4達(dá)到了相似的成功率,甚至GPT-3.5都取得了不錯(cuò)的成績。


到了當(dāng)天深夜,竟然有網(wǎng)友提交了滿分答卷!


futuristfrog發(fā)布了一條推文,聲稱僅通過精心設(shè)計(jì)的提示就實(shí)現(xiàn)了近乎100%的成功率。

事實(shí)證明,他的確做到了。在小哥的首次測試中,他的方案在50次嘗試中成功了47次,因此贏得了獎(jiǎng)金,圓滿完成了這一挑戰(zhàn)。

討論激烈

問題一出,便引發(fā)了激烈的討論。


有網(wǎng)友表示自己沒做任何修改,GPT-4就做了出來。

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

但很快就被其他網(wǎng)友指出了錯(cuò)誤。

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

高贊回答表示,如果讓GPT-4編寫程序,這道題實(shí)際上是非常容易的。


但很明顯,你不能說LLM + Python就能得到AGI。

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

與此同時(shí),各路網(wǎng)友也紛紛開始提交自己做出的答案。

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

但也有不少人認(rèn)為,作者出的這道題,很有問題。


Eric (e/ass)表示,正如Karpathy多次指出的,token化問題是導(dǎo)致序列操作成功或失敗的關(guān)鍵因素。


如果在token化過程中出現(xiàn)了問題,那么即使是更簡單的字符串操作也無法順利完成。


相比之下,token化處理得較好的字符串(例如連續(xù)的兩個(gè)字母)就很容易進(jìn)行操作。

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

當(dāng)然,這并不意味著GPT在管理規(guī)則排列的token的空間布局方面沒有本質(zhì)的問題。


實(shí)際上,它在這方面的表現(xiàn)并不出色,而且將其分解為字節(jié)也并沒有太大幫助,因?yàn)檫@會(huì)使需要移動(dòng)的數(shù)據(jù)單元占用更多空間。


與人類能夠進(jìn)行動(dòng)態(tài)分塊處理不同,目前的LLM還沒有找到有效的解決方案。


你提到的邏輯問題可能確實(shí)存在,但這個(gè)例子并沒有證明GPT存在無法克服的根本性限制。


或許隨著技術(shù)的進(jìn)步會(huì)誕生更強(qiáng)的模型,但這并不意味著如今的Transformer在進(jìn)行基本推理方面存在明顯的短板。

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

Edgars Nem?e也認(rèn)為,這不是因?yàn)镚PT推理能力不行,而是被自己的「觀察」方式限制住了。

GPT-4推理能力為0?開發(fā)者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區(qū)

作者解釋

最后,為了讓大家能更好地理解這個(gè)挑戰(zhàn),我們來看一看Taelin自己的詳細(xì)解釋。


1.這個(gè)問題并非由token化引起的。即便是每個(gè)符號(hào)分配一個(gè)token,GPT-4、Opus等模型仍然無法解決這類問題。即使是基于字節(jié)的GPT模型也同樣失敗。不要總是將問題歸咎于token化。

2. GPT無法解決這類問題的根本原因在于,它們?nèi)狈M(jìn)行持續(xù)邏輯推理的能力。簡而言之,任何超出訓(xùn)練集范圍、哪怕只需一丁點(diǎn)邏輯推理的「新問題」,GPT都無法應(yīng)對(duì)。這正是我們想要證明的。

3. 強(qiáng)大如GPT-4或Opus之類的模型,其實(shí)質(zhì)上是在其權(quán)重中「演化出了一位電路設(shè)計(jì)師」。但是,注意力機(jī)制作為一種計(jì)算模型的固定性,使得這種演化的電路無法展現(xiàn)足夠的靈活性。這就像AGI試圖在其中成長,但由于計(jì)算和通信的限制而無法做到。相比之下,人類的大腦始終在經(jīng)歷著突觸可塑性變化。

4. 一個(gè)冷知識(shí)是,當(dāng)前AI熱潮的很大一部分原因是人類不善于理解規(guī)模的巨大。一旦你記住了整個(gè)互聯(lián)網(wǎng)的內(nèi)容,你看起來會(huì)非常聰明。

5. 盡管如此,GPT依然展現(xiàn)出了強(qiáng)大的能力。它們解決了許多現(xiàn)實(shí)世界的問題,將普通開發(fā)者的能力提升了數(shù)百倍,并以此加速了人類進(jìn)步的步伐。我相信通用人工智能的到來已經(jīng)近在咫尺。但它不會(huì)是GPT,也不會(huì)是任何基于梯度下降的形式。

6. 我的看法可能完全錯(cuò)誤。畢竟,我只是互聯(lián)網(wǎng)上的一名普通人,而且經(jīng)常犯錯(cuò)。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/h51nWFOFIZKICCnsrVO_Ag??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦