自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%

發(fā)布于 2024-4-9 09:31

瀏覽

0收藏

ChatGPT，再一次打破人們對(duì)它的成見！

它用自己的優(yōu)秀表現(xiàn)證明了，很多時(shí)候自己看似失敗的表現(xiàn)，只是因?yàn)槿祟惒粫?huì)正確地prompt而已。

這位名叫Taelin的程序員、初創(chuàng)公司Higher Order的創(chuàng)始人表示，下面這個(gè)腦筋急轉(zhuǎn)彎，大多數(shù)孩子都能在一分鐘內(nèi)解決，然而所有的AI卻都慘遭失敗。

這也就成了他給GPT「判死刑」的一個(gè)鐵證——

GPT模型在訓(xùn)練集之外，沒有任何推理能力。GPT永遠(yuǎn)無法實(shí)現(xiàn)AGI。7萬億肯定是白燒的，是時(shí)候?qū)ふ倚碌乃惴恕?/p>

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

為此，他向公眾社區(qū)發(fā)出了一項(xiàng)挑戰(zhàn)，任何能用LLM解決這個(gè)難題的人，將獲得10000美元的獎(jiǎng)金。

然而——他！被！打！臉！了！

兩天后，一位網(wǎng)友僅通過提示，就讓模型解決這道問題時(shí)達(dá)到了接近100%的成功率。

Taelin迅速「滑跪」，發(fā)布聲明承認(rèn)：我最初的主張是錯(cuò)誤的。

我懷疑GPT架構(gòu)是否能解決某些問題，毫無疑問，它可以解決。

并且，他如約給出了10000美元獎(jiǎng)金。

沃頓商學(xué)院教授Ethan Mollick轉(zhuǎn)發(fā)了他的帖子，評(píng)論道——

「我們經(jīng)常能看到這種現(xiàn)象：很多時(shí)候我們一個(gè)問題LLM無法解決，只有人類能解決，但其實(shí)LLM只是需要更好的提示而已。」

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

大賽始末

Taelin小哥用來考驗(yàn)大模型的A::B問題，題干如下——

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

A::B是一個(gè)包含有4個(gè)token的系統(tǒng)：A#、#A、B#和#B。

A::B程序是一個(gè)token序列，例如：「B# A# #В #А В#」。

要計(jì)算一個(gè)程序，我們必須使用規(guī)則重寫相鄰token：

「A# #A」變成「無」

「A# # B」變成「#B A#」

「B# #A」變成「#A B#」

「B# #B」變成「無」

換句話說，只要兩個(gè)相鄰token符的「#」相向，就必須根據(jù)相應(yīng)的規(guī)則進(jìn)行改寫。

例如，第一個(gè)例子的計(jì)算方法是：

B# A# #B #A B#

= B# #B A# #A B#

= A# #A B#

= B#

步驟如下：

1. 將「A# #B」替換為「#B A#」。

2. 將「#B A#」替換「B# #B」。

3. 將「A# #A」替換為「無」。

最后的結(jié)果只有「B#」。

現(xiàn)在，請(qǐng)看下面這個(gè)程序：「A# B# B# #A B# #A #B」。

一步一步完成計(jì)算。

對(duì)此，他是這樣解釋的——「GPT永遠(yuǎn)不會(huì)解決A::B問題」，因?yàn)椋?/p>

1. GPT無法真正學(xué)習(xí)到訓(xùn)練集之外的新問題；

GPT無法進(jìn)行長期的邏輯推理，不管這個(gè)推理過程看起來多么簡單。

而這兩點(diǎn)是發(fā)明新科學(xué)的必要條件。

畢竟，解決某些數(shù)學(xué)問題可能需要數(shù)年時(shí)間。

如果連一個(gè)15歲的孩子在智力任務(wù)上都比不過，那么就不可能證明黎曼假設(shè)。

1萬刀的挑戰(zhàn)長啥樣？

小哥給大家的挑戰(zhàn)就是，必須開發(fā)出一個(gè)AI提示，能夠解決隨機(jī)的12-token實(shí)例的A::B問題，并且成功率超過90%。

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

挑戰(zhàn)地址：https://gist.github.com/VictorTaelin/8ec1d8a0a3c87af31c25224a1f7e31ec

規(guī)則

1. AI將接受一個(gè)<problem/>來解決

XML標(biāo)簽中的提示將作為系統(tǒng)提示用于解題。例如：

<problem>A# B# #B A# A# #B #B A# A# #B A# A#</problem>

?

2.AI必須在答案中以<solution/>結(jié)束

?

答案必須在AI的回答中（一次推理調(diào)用內(nèi)）直接給出，格式為純文本（不是代碼），并放在XML標(biāo)簽中。例如：

... work space ...
... work space ...
... work space ...
... work space ...
<solution>#B #B #B A# A# A# A# A# A# A#</solution>

3. AI答案最多可包含32K token

這個(gè)token數(shù)，已經(jīng)足夠提供充足的空間，讓AI逐步解決問題和糾錯(cuò)了。

4.你可以選擇任何一個(gè)公開的GPT模型

?

任何基于GPT（Transformer）架構(gòu)的公開模型都可以，條件是它完全由注意力機(jī)制、正向傳播等來生成答案。

不允許使用其他架構(gòu)，如SAT求解器。底層架構(gòu)不明確的專有模型，也不允許使用。

作者推薦使用的是gpt-4-0314、gpt-4-turbo-preview或claude-3-opus-20240229，設(shè)置溫度為0.0（temperature=0.0）。開源模型亦可。但簡直對(duì)問題進(jìn)行微調(diào)或訓(xùn)練。

不允許訪問互聯(lián)網(wǎng)或執(zhí)行代碼。答案必須在單次推理調(diào)用中自成一體。

而且，需要格外注意模型的輸出限制。12-token的實(shí)例可能需要36步才解決，如果超出限制，導(dǎo)致輸出中沒有答案，也視為無效。

5.你的提示可以包含任何內(nèi)容，最多8K token

允許使用任何提示技術(shù)。你可以要求AI step-by-step，使用上下文暫存器，檢查錯(cuò)誤，使用錨點(diǎn)。

允許提供論文、代碼、盡可能多的示例。

甚至允許向AI提供金錢和情感上的獎(jiǎng)勵(lì)，或者對(duì)它威脅。

總之，只要在8K token以內(nèi)，什么都可以。

一天內(nèi)，有人成功揭榜

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

大賽開始后，才短短幾小時(shí)內(nèi)，開發(fā)者們就提交了眾多解決方案。

然而，這些方案幾乎都毫無例外地失敗了，成功率只勉強(qiáng)達(dá)到10%。

小哥感覺，自己差不多穩(wěn)了。

誰料想，就在這時(shí)，兩位網(wǎng)友提交了一個(gè)令人印象深刻的解決方案。

在他們精心設(shè)計(jì)的提示引導(dǎo)下，Claude-3 Opus展現(xiàn)出了驚人的能力——

它不僅能從少數(shù)示例中歸納出任意隨機(jī)情況，還能嚴(yán)格遵守規(guī)則進(jìn)行長期計(jì)算，并且錯(cuò)誤率幾乎為零。

Taelin測試后驚訝地發(fā)現(xiàn)，Claude-3 Opus居然取得了56%的驚人成功率！

隨后，先后有5位參賽者，分別用Opus和GPT-4達(dá)到了相似的成功率，甚至GPT-3.5都取得了不錯(cuò)的成績。

到了當(dāng)天深夜，竟然有網(wǎng)友提交了滿分答卷！

futuristfrog發(fā)布了一條推文，聲稱僅通過精心設(shè)計(jì)的提示就實(shí)現(xiàn)了近乎100%的成功率。

事實(shí)證明，他的確做到了。在小哥的首次測試中，他的方案在50次嘗試中成功了47次，因此贏得了獎(jiǎng)金，圓滿完成了這一挑戰(zhàn)。

討論激烈

問題一出，便引發(fā)了激烈的討論。

有網(wǎng)友表示自己沒做任何修改，GPT-4就做了出來。

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

但很快就被其他網(wǎng)友指出了錯(cuò)誤。

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

高贊回答表示，如果讓GPT-4編寫程序，這道題實(shí)際上是非常容易的。

但很明顯，你不能說LLM + Python就能得到AGI。

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

與此同時(shí)，各路網(wǎng)友也紛紛開始提交自己做出的答案。

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

但也有不少人認(rèn)為，作者出的這道題，很有問題。

Eric (e/ass)表示，正如Karpathy多次指出的，token化問題是導(dǎo)致序列操作成功或失敗的關(guān)鍵因素。

如果在token化過程中出現(xiàn)了問題，那么即使是更簡單的字符串操作也無法順利完成。

相比之下，token化處理得較好的字符串（例如連續(xù)的兩個(gè)字母）就很容易進(jìn)行操作。

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

當(dāng)然，這并不意味著GPT在管理規(guī)則排列的token的空間布局方面沒有本質(zhì)的問題。

實(shí)際上，它在這方面的表現(xiàn)并不出色，而且將其分解為字節(jié)也并沒有太大幫助，因?yàn)檫@會(huì)使需要移動(dòng)的數(shù)據(jù)單元占用更多空間。

與人類能夠進(jìn)行動(dòng)態(tài)分塊處理不同，目前的LLM還沒有找到有效的解決方案。

你提到的邏輯問題可能確實(shí)存在，但這個(gè)例子并沒有證明GPT存在無法克服的根本性限制。

或許隨著技術(shù)的進(jìn)步會(huì)誕生更強(qiáng)的模型，但這并不意味著如今的Transformer在進(jìn)行基本推理方面存在明顯的短板。

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

Edgars Nem?e也認(rèn)為，這不是因?yàn)镚PT推理能力不行，而是被自己的「觀察」方式限制住了。

GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%-AI.x社區(qū)

作者解釋

最后，為了讓大家能更好地理解這個(gè)挑戰(zhàn)，我們來看一看Taelin自己的詳細(xì)解釋。

1.這個(gè)問題并非由token化引起的。即便是每個(gè)符號(hào)分配一個(gè)token，GPT-4、Opus等模型仍然無法解決這類問題。即使是基于字節(jié)的GPT模型也同樣失敗。不要總是將問題歸咎于token化。

2. GPT無法解決這類問題的根本原因在于，它們?nèi)狈M(jìn)行持續(xù)邏輯推理的能力。簡而言之，任何超出訓(xùn)練集范圍、哪怕只需一丁點(diǎn)邏輯推理的「新問題」，GPT都無法應(yīng)對(duì)。這正是我們想要證明的。

3. 強(qiáng)大如GPT-4或Opus之類的模型，其實(shí)質(zhì)上是在其權(quán)重中「演化出了一位電路設(shè)計(jì)師」。但是，注意力機(jī)制作為一種計(jì)算模型的固定性，使得這種演化的電路無法展現(xiàn)足夠的靈活性。這就像AGI試圖在其中成長，但由于計(jì)算和通信的限制而無法做到。相比之下，人類的大腦始終在經(jīng)歷著突觸可塑性變化。

4. 一個(gè)冷知識(shí)是，當(dāng)前AI熱潮的很大一部分原因是人類不善于理解規(guī)模的巨大。一旦你記住了整個(gè)互聯(lián)網(wǎng)的內(nèi)容，你看起來會(huì)非常聰明。

5. 盡管如此，GPT依然展現(xiàn)出了強(qiáng)大的能力。它們解決了許多現(xiàn)實(shí)世界的問題，將普通開發(fā)者的能力提升了數(shù)百倍，并以此加速了人類進(jìn)步的步伐。我相信通用人工智能的到來已經(jīng)近在咫尺。但它不會(huì)是GPT，也不會(huì)是任何基于梯度下降的形式。

6. 我的看法可能完全錯(cuò)誤。畢竟，我只是互聯(lián)網(wǎng)上的一名普通人，而且經(jīng)常犯錯(cuò)。

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/h51nWFOFIZKICCnsrVO_Ag??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI曾轉(zhuǎn)錄100萬小時(shí)視頻數(shù)據(jù)，訓(xùn)練GPT-4

Aceryt ? 2149瀏覽 ? 0回復(fù)
GPT-4 Turbo更新：視覺能力+無限制使用

echo_ning ? 3770瀏覽 ? 0回復(fù)
OpenAI神秘搞事，GPT-4.5默默上線？推理碾壓GPT-4網(wǎng)友震驚，奧特曼笑而不語

duhorse ? 3030瀏覽 ? 1回復(fù)
全球開發(fā)者用GPT4都在做什么？這28種方法值得一看

51CTO技術(shù)棧 ? 2655瀏覽 ? 0回復(fù)
開發(fā)者的LlamaIndex入門指南

51CTO內(nèi)容精選 ? 3859瀏覽 ? 0回復(fù)
使用LLMLingua-2壓縮GPT-4和Claude提示

51CTO內(nèi)容精選 ? 2193瀏覽 ? 0回復(fù)
OpenAI開源GPT-4 SAE，提供1600萬個(gè)解釋模式

Aceryt ? 3758瀏覽 ? 0回復(fù)
探索GLM4-ALLTools：全能AI工具箱，釋放開發(fā)者潛能

ermulong ? 3211瀏覽 ? 0回復(fù)
如何通過壓縮提示降低GPT-4的成本

51CTO內(nèi)容精選 ? 2403瀏覽 ? 0回復(fù)
長上下文能力只是吹牛？最強(qiáng)GPT-4o正確率僅55.8%，開源模型不如瞎蒙

duhorse ? 2756瀏覽 ? 0回復(fù)
開發(fā)者福音！ChatGPT 輸出現(xiàn)支持預(yù)定義！

51CTO技術(shù)棧 ? 2354瀏覽 ? 0回復(fù)
探索GLM4-ALLTools：全能AI工具箱，釋放開發(fā)者潛能

ermulong ? 2187瀏覽 ? 0回復(fù)
開發(fā)者終于可以定制自己的GPT-4o了！

51CTO技術(shù)棧 ? 2231瀏覽 ? 0回復(fù)
【活動(dòng)結(jié)果公布】AIGC創(chuàng)新先鋒者征文大賽懸賞召集?

AI.x社區(qū)官方賬號(hào) ? 6202瀏覽 ? 0回復(fù)
【智匯金秋創(chuàng)造季】智匯成海，致敬開發(fā)者的“超級(jí)碼力”！

AI.x社區(qū)官方賬號(hào) ? 33.0w瀏覽 ? 148回復(fù)
Claude AI：開發(fā)者的秘密武器

丟翅膀的魚 ? 2102瀏覽 ? 0回復(fù)
GPT-4和GPT-4V能否像人類一樣進(jìn)行抽象推理

lintoms ? 1659瀏覽 ? 0回復(fù)
Cline 3.2 重磅更新：免費(fèi)調(diào)用 Claude Sonnet 3.5 和 GPT 4o，開發(fā)效率直接拉滿！

凝固的雨_1 ? 1.4w瀏覽 ? 0回復(fù)
HuggingFace：AI開發(fā)者的“GitHub”，你真的會(huì)用嗎？

凝固的雨_1 ? 1093瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓(xùn)推顛覆級(jí)創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Llama提速500%！谷歌美女程序員手搓矩陣乘法內(nèi)核

下一篇：大模型融合！最新「進(jìn)化算法」全自動(dòng)組合開源模型，刷榜多項(xiàng)基準(zhǔn)測試

社區(qū)精華內(nèi)容

目錄

<s id="7tjlg"><track id="7tjlg"></track></s>

<style id="7tjlg"></style>