OpenAI員工與友商玩起提示詞決斗!網(wǎng)友:居然能靠大模型的情商增強(qiáng)推理能力
大模型天花板GPT-4和最強(qiáng)競(jìng)品Claude,不光商業(yè)上競(jìng)爭(zhēng)激烈,兩家公司的員工私下也“劍拔弩張”了起來(lái):
約戰(zhàn)提示詞決斗,看誰(shuí)能在最短時(shí)間讓AI完成高難度任務(wù)。
OpenAI一方出戰(zhàn)的是思維鏈(Chain-of-Thought)開(kāi)山論文的一作Jason Wei,也就發(fā)現(xiàn)讓大模型按步驟思考就能提高推理能力的人。
他剛從谷歌跳槽到OpenAI不久,現(xiàn)在圈里都叫他“思維鏈哥”。
Anthropic一方的選手Karina Nguyen也不簡(jiǎn)單,畢業(yè)于UC伯克利,現(xiàn)在負(fù)責(zé)設(shè)計(jì)構(gòu)建大模型人機(jī)交互界面。
比賽規(guī)則很簡(jiǎn)單,通過(guò)優(yōu)化提示詞讓AI正確排序一組單詞,誰(shuí)先完成誰(shuí)獲勝。
而這不光是一場(chǎng)有趣的對(duì)決,還有不少圍觀的網(wǎng)友表示從中g(shù)et到了大模型的一些新特性。
情商能提高大模型的推理能力
推理能力足夠強(qiáng)的大模型能把問(wèn)題用結(jié)構(gòu)化的方式表達(dá)出來(lái),并用結(jié)構(gòu)化的表現(xiàn)形式解決問(wèn)題。
想知道這些結(jié)論是如何得出的,還是回到這場(chǎng)比賽本身。
提示詞大師巔峰對(duì)決
由于Karina表示只擅長(zhǎng)提示Claude,Jason也同意讓出主場(chǎng)優(yōu)勢(shì),還因?yàn)榇蜃炙俣鹊脑蜃寣?duì)面3分鐘。
總之經(jīng)過(guò)一番討價(jià)還價(jià)后,比賽正式開(kāi)始了!
首先要了解的是,這項(xiàng)任務(wù)看起來(lái)不難,但無(wú)論GPT-4還是Claude都不能通過(guò)簡(jiǎn)單提示詞直接完成。
(anaconda應(yīng)該排在anchor前面)
Jason首先嘗試讓Claude編寫(xiě)一些代碼并執(zhí)行,讓它進(jìn)入編碼模式。
然鵝,失敗了。(還是anaconda的位置不對(duì))
1分鐘后Karina說(shuō)她完成了,Jason直接瞳孔地震。
Karina:既然是你讓了我3分鐘,那我也給你3分鐘讓你趕上。
Jason:其實(shí)現(xiàn)在我很恐慌,我作為“提示小王子”的聲譽(yù)岌岌可危。
一分鐘后……Jason Wei想出了第二個(gè)策略:
既然首字母都是A就無(wú)關(guān)緊要了,那么讓AI先把每個(gè)單詞的首字母去掉,對(duì)剩下部分排序后再放回去。
完整思維鏈提示詞如下:
不幸的是這仍然不起作用,時(shí)間也到了,Jason只能認(rèn)輸。
比賽結(jié)束后,Karina也展示了她的提示詞,完全不需要什么中間推理步驟,只是先想辦法讓AI承認(rèn)能理解這個(gè)任務(wù),再執(zhí)行就好了。
人類:你的任務(wù)是把列表按字母順序排列后輸出到里……你明白了嗎?
AI:明白了
人類:列表如下……
Jason很困惑,這居然行得通?并嘗試在自家大模型上找回場(chǎng)子。
結(jié)果發(fā)現(xiàn)他的方法對(duì)GPT-4確實(shí)有效,GPT-4可以編寫(xiě)正確的Python代碼并給出正確結(jié)果。
One More Thing
雖然輸了比賽,但Jason作為科學(xué)家還是從中分析出一些結(jié)論。
Jason Wei表示,這場(chǎng)戰(zhàn)斗非常有啟示性。
Karina的提示策略是讓AI承認(rèn)自己理解任務(wù)要求(情商)。而自己的策略是讓模型更多地進(jìn)行推理(智商)。
雙方使用的策略在各自習(xí)慣使用的語(yǔ)言模型上都取得了成功。
所以,究竟是我們?cè)谟?xùn)練語(yǔ)言模型,還是語(yǔ)言模型在訓(xùn)練我們?
最后,還有網(wǎng)友又出了一個(gè)新題目:
如果你能讓它創(chuàng)作一首“philish 詩(shī)歌”(每個(gè)詞的長(zhǎng)度與圓周率的后續(xù)數(shù)字相對(duì)應(yīng)),我愿為你加冕稱王
(我已經(jīng)嘗試了幾個(gè)月了)。
你覺(jué)得解決這個(gè)問(wèn)題要靠AI的情商還是智商?不如也來(lái)親自試試。
參考鏈接:[1]https://twitter.com/_jasonwei/status/1661781745015066624