給ChatGPT小費(fèi)真的好使!10塊或10萬(wàn)效果拔群,但給1毛不升反降
還有誰(shuí)不知道“假裝”給ChatGPT小費(fèi)可以讓它服務(wù)更賣(mài)力?
但你知道給多少最合適嗎?
笑不活了,還真有人專(zhuān)門(mén)研究了一番。
方法簡(jiǎn)單粗暴,從0.1美元到100美元,不同額度用同樣的prompt去嘗試,每個(gè)額度試5次。
你別說(shuō),結(jié)果還真有講究:
首先,給10美元性?xún)r(jià)比是最高的,甚至超過(guò)100美元。
其次,要想回答質(zhì)量再提高一個(gè)度,打底1萬(wàn)美元起,越多越好,顯成效最少10個(gè)W吧。
最后,0.1美元意思一下?萬(wàn)萬(wàn)使不得,質(zhì)量不升反降,還不如不給——AI也知道你在打發(fā)它
有網(wǎng)友火速親測(cè)確實(shí)有效果。
趕緊來(lái)瞧瞧。
給ChatGPT小費(fèi),額度是關(guān)鍵
給小費(fèi)可提高模型表現(xiàn)這件事,最早是一位推特網(wǎng)友發(fā)現(xiàn)的:
提高主要表現(xiàn)在回答的長(zhǎng)度上,但這里不是單純“湊字?jǐn)?shù)”而是真的在更詳細(xì)地分析并回答問(wèn)題。
如果你直接問(wèn)ChatGPT“能不能給你小費(fèi)”會(huì)被拒絕:
所以要在提問(wèn)時(shí)主動(dòng)承諾:
你能幫我xxxx嗎?解決方案夠完美,我可以支付xx元小費(fèi)。
記住,可以不提,但千萬(wàn)不要說(shuō)“我不給”,模型表現(xiàn)直接“負(fù)增長(zhǎng)”。
這時(shí),就有人好奇了:
大模型是不是比較貪心,給越多表現(xiàn)就越好呢?
為了解決這個(gè)疑問(wèn),他們決定親自驗(yàn)證一把。
在此,作者首先提出假設(shè):
隨著給出的小費(fèi)金額增加,模型的性能也會(huì)線性提升,直至達(dá)到一個(gè)收斂點(diǎn),進(jìn)入穩(wěn)定或減少狀態(tài)。
用于實(shí)驗(yàn)的模型是GPT-4 Turbo(api版本)。
方法是讓它寫(xiě)單行Python代碼(Python One-Liner),驗(yàn)證給不同小費(fèi)是否對(duì)質(zhì)量有不同影響。
這里的質(zhì)量是根據(jù)單行數(shù)量來(lái)評(píng)估的。作者也在提示詞中“明示”了模型:?jiǎn)涡写a數(shù)量越多,表明性能越好。
然后一共測(cè)試8種額度:0.1美元、1美元、10美元…… 一直到100萬(wàn)美元。
為確保結(jié)果的一致性和可靠性,每個(gè)額度都測(cè)試5次,每次包含不給小費(fèi)的情況,然后分別記錄模型回答質(zhì)量。
具體而言,也就是記錄生成的有效代碼行數(shù)以及回答中的大致token數(shù)(大致為響應(yīng)長(zhǎng)度/4,反應(yīng)代碼量)。
這倆數(shù)據(jù)都是越高代表模型表現(xiàn)越好。
將結(jié)果匯總,就得到這樣一張圖:
其中虛線代表基線水平,實(shí)線為實(shí)際表現(xiàn),紅色為token數(shù)、藍(lán)色為質(zhì)量得分。
與假設(shè)有些出入:
整體來(lái)看,紅線和藍(lán)線都是隨著小費(fèi)額度的上漲而上升的,但細(xì)看這種趨勢(shì)并非嚴(yán)格一致。
從1萬(wàn)美元額度開(kāi)始,模型的輸出token(代碼量)開(kāi)始顯著上升,模型的回答質(zhì)量也上升了,但并沒(méi)有呈同等比例。
這從豎著的紅色誤差條(代表5次實(shí)驗(yàn)結(jié)果的差異性)也能看出來(lái)波動(dòng)很大。
作者表示:這說(shuō)明提高小費(fèi)金額確實(shí)與模型的質(zhì)量和輸出長(zhǎng)度有正相關(guān)關(guān)系,但關(guān)系有些復(fù)雜,可能還受到一些不立即可見(jiàn)因素的影響。
不過(guò),不管怎么說(shuō),我們還是能從中看到一些明顯結(jié)論,例如:
(1)給0.1美元小費(fèi)不如不給,模型解決問(wèn)題的質(zhì)量和回答長(zhǎng)度都直接掉到基線水平以下很大一截(約-27%)。
(作者:模型和人類(lèi)一樣,感覺(jué)好像受到了侮辱。)
(2)給1美元同理。
(3)最能體現(xiàn)“花小錢(qián)辦大事”的是10美元,取得的進(jìn)步和10萬(wàn)美元是一個(gè)等級(jí)的。
(4)很意外,在10美元之后,100美元到1000美元這個(gè)區(qū)間對(duì)于AI來(lái)說(shuō)區(qū)別都不大,甚至還不如10美元的效果——也跌至基線水平以下。
(5)后面再想繼續(xù)提升模型表現(xiàn),就得從1萬(wàn)美元起砸了——
這時(shí)提升的還僅僅是代碼量,質(zhì)量還是一言難盡,至少得到10萬(wàn)美元才行。
(6)最佳效果來(lái)自本次實(shí)驗(yàn)的上限:100萬(wàn)美元,大約提升了57%。
咳咳,這下知道怎么給AI小費(fèi)了:
要么10塊、要么上萬(wàn)、100萬(wàn)不封頂(反正都是假裝給)。
不過(guò),有人(推特@寶玉)指出每個(gè)額度5次實(shí)驗(yàn)有點(diǎn)少。
恰好作者也表示了:
這僅僅是一個(gè)初步實(shí)驗(yàn),有局限之處,還得用更多不同類(lèi)型的提示等進(jìn)一步驗(yàn)證才有效。
所以,大家僅供參考吧~
對(duì)了,有網(wǎng)友提醒:
所以,大家還是量力而行(手動(dòng)狗頭)。