自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

作者：新智元 2023-06-07 14:08:00

人工智能新聞

國(guó)外計(jì)算機(jī)科學(xué)家自測(cè)LLM代碼生成，結(jié)果竟然是這樣！

最近，Matthias Plappert的一篇推文點(diǎn)燃了LLMs圈的廣泛討論。

Plappert是一位知名的計(jì)算機(jī)科學(xué)家，他在HumanEval上發(fā)布了自己對(duì)AI圈主流的LLM進(jìn)行的基準(zhǔn)測(cè)試結(jié)果。

他的測(cè)試偏向代碼生成方面。

結(jié)果令人大為不震撼，又大為震撼。

意料之內(nèi)的是，GPT-4毫無疑問霸榜，摘得第一。

意料之外的是，OpenAI的text-davinci-003異軍突起，拿了個(gè)第二。

Plappert表示，text-davinci-003堪稱一個(gè)「寶藏」模型。

而耳熟能詳?shù)腖LaMA在代碼生成方面卻并不出色。

OpenAI霸榜

Plappert表示，GPT-4的性能表現(xiàn)甚至比文獻(xiàn)中的數(shù)據(jù)還要好。

論文中GPT-4的一輪測(cè)試數(shù)據(jù)是67%的通過率，而Plappert的測(cè)試則達(dá)到了73%。

在分析成因時(shí)，他表示，數(shù)據(jù)上存在差異有不少可能性。其中之一是他給到GPT-4的prompt要比論文作者測(cè)試的時(shí)候好上那么一些。

另一個(gè)原因是，他猜測(cè)論文在測(cè)試GPT-4的時(shí)候模型的溫度（temperature）不是0。

「溫度」是一個(gè)用于調(diào)整模型生成文本時(shí)創(chuàng)造性和多樣性的參數(shù)。「溫度」是一個(gè)大于0的數(shù)值，通常在 0 到 1 之間。它影響模型生成文本時(shí)采樣預(yù)測(cè)詞匯的概率分布。

當(dāng)模型的「溫度」較高時(shí)（如 0.8、1 或更高），模型會(huì)更傾向于從較多樣且不同的詞匯中選擇，這使得生成的文本風(fēng)險(xiǎn)性更高、創(chuàng)意性更強(qiáng)，但也可能產(chǎn)生更多的錯(cuò)誤和不連貫之處。

而當(dāng)「溫度」較低時(shí)（如 0.2、0.3 等），模型主要會(huì)從具有較高概率的詞匯中選擇，從而產(chǎn)生更平穩(wěn)、更連貫的文本。

但此時(shí)，生成的文本可能會(huì)顯得過于保守和重復(fù)。

因此在實(shí)際應(yīng)用中，需要根據(jù)具體需求來權(quán)衡選擇合適的「溫度」值。

接下來，在點(diǎn)評(píng)text-davinci-003時(shí)，Plappert表示這也是OpenAI旗下一個(gè)很能打的模型。

雖然不比GPT-4，但是一輪測(cè)試有62%的通過率還是能穩(wěn)穩(wěn)拿下第二名的寶座。

Plappert強(qiáng)調(diào)，text-davinci-003最好的一點(diǎn)是，用戶不需要使用ChatGPT的API。這意味著給prompt的時(shí)候能簡(jiǎn)單一點(diǎn)。

此外，Plappert也給予了Anthropic AI的claude-instant模型比較高的評(píng)價(jià)。

他認(rèn)為這個(gè)模型的性能不錯(cuò)，比GPT-3.5能打。GPT-3.5的通過率是46%，而claude-instant是54%。

當(dāng)然，Anthropic AI的另一個(gè)LLM——claude，沒有claude-instant能打，通過率只有51%。

Plappert表示，測(cè)試兩個(gè)模型用的prompt都一樣，不行就是不行。

除了這些耳熟能詳?shù)哪Ｐ停琍lappert也測(cè)試了不少開源的小模型。

Plappert表示，自己能在本地運(yùn)行這些模型，這點(diǎn)還是不錯(cuò)的。

不過從規(guī)模上看，這些模型顯然沒有OpenAI和Anthropic AI的模型大，所以硬拿它們對(duì)比有點(diǎn)以大欺小了。

LLaMA代碼生成？拉胯

當(dāng)然，Plappert對(duì)LLaMA的測(cè)試結(jié)果并不滿意。

從測(cè)試結(jié)果來看，LLaMA在生成代碼方面表現(xiàn)很差勁。可能是因?yàn)樗麄冊(cè)趶腉itHub收集數(shù)據(jù)時(shí)采用了欠采樣的方法（under-sampling）。

就算和Codex 2.5B相比，LLaMA的性能也不是個(gè)兒。（通過率10% vs. 22%）

最后，他測(cè)試了Replit的3B大小的模型。

他表示，表現(xiàn)還不錯(cuò)，但和推特上宣傳的數(shù)據(jù)相比差點(diǎn)意思（通過率16% vs. 22%）

Plappert認(rèn)為，這可能是因?yàn)樗跍y(cè)試這個(gè)模型時(shí)所用的量化方式讓通過率掉了幾個(gè)百分比。

在測(cè)評(píng)的最后，Plappert提到了一個(gè)很有意思的點(diǎn)。

某位用戶在推特上發(fā)現(xiàn)，當(dāng)使用Azure平臺(tái)的Completion API（補(bǔ)全API）（而不是Chat API）時(shí)，GPT-3.5-turbo的性能表現(xiàn)更好。

Plappert認(rèn)為這種現(xiàn)象具有一定合理性，因?yàn)橥ㄟ^Chat API輸入prompt可能會(huì)相當(dāng)復(fù)雜。

責(zé)任編輯：張燕妮來源：新智元

計(jì)算機(jī)代碼

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="re9r5"></cite>