自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

0代碼訓(xùn)練GPT-5？MIT微軟證實GPT-4涌現(xiàn)自我糾錯能力，智能體循環(huán)根據(jù)反饋讓代碼迭代！

作者：新智元 2023-07-04 13:42:00

人工智能新聞

誰能想到，訓(xùn)練GPT-5竟不用手寫代碼。MIT微軟最新研究發(fā)現(xiàn)，GPT-4在代碼修復(fù)中的有效性。以后，OpenAI工程師能做的只有——Critique is all you need。

我們都知道，大模型具有自省能力，可以對寫出的代碼進行自我糾錯。

這種自我修復(fù)背后的機制，究竟是怎樣運作的？

對代碼為什么是錯誤的，模型在多大程度上能提供準(zhǔn)確反饋？

近日，MIT和微軟的學(xué)者發(fā)現(xiàn)，在GPT-4和GPT-3.5之中，只有GPT-4表現(xiàn)出了有效的自修復(fù)。并且，GPT-4甚至還能對GPT-3.5生成的程序提供反饋。

圖片

論文地址：https://arxiv.org/pdf/2306.09896.pdf

英偉達(dá)科學(xué)家Jim Fan強烈推薦了這項研究。

在他看來，即使是最專業(yè)的人類程序員也無法一次性正確編寫程序。他們需要查看執(zhí)行結(jié)果，推理出問題所在，給出修復(fù)措施，反復(fù)嘗試。這是一個智能體循環(huán)：根據(jù)環(huán)境反饋迭代改進代碼。

很有可能，OpenAI正在通過雇傭大量軟件工程師來訓(xùn)練下一代GPT。而他們不需要輸出代碼——Critique is all you need。

- GPT-4能夠進行自我修復(fù)的核心原因是其強大的反饋能力。它能夠有效地自我反思代碼的問題所在，其他模型無法與之競爭。

- 反饋模型和代碼生成模型不必相同。事實上，反饋模型是瓶頸。

- 基于GPT-4的反饋，GPT-3.5能夠編寫更好的代碼。

- 基于專業(yè)人員的反饋，GPT-4本身能夠編寫更好的代碼。

揭秘用于代碼生成GPT修復(fù)

我們都知道，大語言模型在生成代碼方面，表現(xiàn)出了非凡的能力。

然而，在具有挑戰(zhàn)性的編程任務(wù)（比如競賽和軟件工程師的面試）中，它們卻完成得并不好。

好在，很多模型會通過一種自修復(fù)工作流來「自省」，來自我糾正代碼中的錯誤。

研究者很希望知道，這些模型在多大程度上能提供正確的反饋，并且說明自己生成的代碼為什么是錯誤的。

如圖顯示的是，基于自我修復(fù)方法的經(jīng)典工作流程。

首先，給定一個規(guī)范，從代碼生成模型中采樣一個程序，然后在規(guī)范中提供的一組單元測試上執(zhí)行該程序。

圖片

如果程序在任何單元測試中失敗，那么錯誤的消息和程序會被提供給一個反饋生成模型，該模型再輸出代碼失敗原因的簡短解釋。

最后，反饋被傳遞給一個修復(fù)模型，該模型生成程序的一個固定版本。

表面上看，這個工作流似乎非常完美。它讓系統(tǒng)在解碼過程中克服由于不良樣本引起的錯誤，在修復(fù)階段容易地合并來自符號系統(tǒng)（編譯器、靜態(tài)分析工具和執(zhí)行引擎等）的反饋。

并且模仿人類軟件工程師編寫代碼的試錯方式。

然而，工作流有一個問題：自修復(fù)需要對模型進行更多的調(diào)用，從而增加了計算成本。

而且，研究者們發(fā)現(xiàn)了一個很有意思的現(xiàn)象：大模型自修復(fù)的有效性不僅取決于模型生成代碼的能力，還取決于它對于代碼如何在任務(wù)中犯錯的識別能力。

目前還沒有任何工作對此進行詳細(xì)調(diào)查，因此，作者們研究了GPT-3.5和GPT-4在解決競賽級代碼生成任務(wù)時的自修復(fù)有效性。

研究人員提出了一個新的評估策略，稱為，在這個策略中，根據(jù)從模型中采樣的token總數(shù)來衡量任務(wù)的通過率。

因為使用的是pass@t，而不是傳統(tǒng)的pass@k（根據(jù)實驗數(shù)量衡量通過率），這樣就能與純粹基于采樣的方法進行公平的比較。

從實驗中，研究者發(fā)現(xiàn)：

1. GPT-4才能實現(xiàn)自我修復(fù)帶來的性能提升；對于GPT-3.5，在所有預(yù)算下，修復(fù)后的通過率要低于或等于基準(zhǔn)的無修復(fù)方法。

2. 即使對于GPT-4模型，性能提升也最多只能算是適度的（在預(yù)算為7000個token的情況下，通過率從66％提高到71％，約等于45個獨立同分布的GPT-4樣本的成本），并且取決于初始程序的多樣性足夠豐富。

3. 使用GPT-4生成的反饋替換GPT-3.5對錯誤的解釋，可以獲得更好的自修復(fù)性能，甚至超過基準(zhǔn)的無修復(fù)GPT-3.5方法（在7000個token下，從50％提高到54％）。

4. 使用人類程序員提供的解釋替換GPT-4自己的解釋，可以顯著改善修復(fù)效果，修復(fù)并通過測試的程序數(shù)量增加了57%。

自我修復(fù)四階段

自修復(fù)方法涉及4個階段：代碼生成、代碼執(zhí)行、反饋生成和代碼修復(fù)。對此，研究人員正式定義了這四個階段。

階段一：代碼生成

給定規(guī)范，一個程序模型，首先生成樣本

用一個公式來表示：

圖片

階段二：代碼執(zhí)行

然后在測試平臺上執(zhí)行代碼示例，并假設(shè)可以以可執(zhí)行形式的訪問完整測試集。

如果任何樣本通過了所有的測試，就會停止，因為此時已經(jīng)找到了令人滿意的程序。

否則，收集執(zhí)行環(huán)境返回的錯誤信息。

這些錯誤消息要么包含編譯/運行時錯誤信息，要么包含程序輸出與預(yù)期不同的示例輸入。

階段三：反饋生成

在此，研究人員使用反饋模型來生成更詳細(xì)的錯誤解釋。

在這個階段，為每個錯誤的程序生成反饋字符串，，如下所示:

階段四：代碼修復(fù)

在最后一步中，對于每個初始程序和反饋，候選修復(fù)程序從中采樣：

研究人員稱這個過程產(chǎn)生的交錯文本和程序樹修復(fù)樹T

——植根于規(guī)范，然后分支到初始程序，每個程序分支到反饋，然后修復(fù)。

具體如圖所示：

圖片

由于自我修復(fù)需要幾個非一致成本的相關(guān)模型調(diào)用，在這種設(shè)置中，（在樣本中獲得正確程序的可能性）不是比較和評估自我修復(fù)的各種超參數(shù)選擇的合適度量。

相反，研究人員將通過率作為從模型中采樣總token數(shù)量的函數(shù)來衡量，將其稱之為的度量。

實驗過程

研究人員又進一步針對3個問題進行了測試：

1. 對于更加有挑戰(zhàn)的編程任務(wù)中，這些模型的自我修復(fù)是否比不進行修復(fù)的i.i.d.有更好的采樣？

2. 更強的反饋模型會提高模型的修復(fù)性能嗎？

3. 如果讓人類參與功能最強模型的自我修復(fù)循環(huán)，提供人工反饋，是否可以解鎖更好的修復(fù)性能？

首先研究團隊引入了一個很有挑戰(zhàn)的編程任務(wù)：Automated Programming Progress Standard （APPS）數(shù)據(jù)集中的編程任務(wù)。

這個數(shù)據(jù)集中的任務(wù)包括從入門級到大學(xué)競賽級的編程任務(wù)，可以用來評估人類程序員解決問題和代碼能力。

研究人員選取了300個任務(wù)，包括60個入門級別的任務(wù)和60個競賽級別的任務(wù)。

圖片

研究人員選取了GPT-3.5和GPT-4作為模型，使用模板字符串連接和單次提示詞來進行自我修復(fù)。

下圖為提示詞的實例之一。

圖片

自修復(fù)需要強大的模型和多樣化的初始樣本

研究人員讓單個模型分別進行代碼的修復(fù)生成和反饋生成。

在右邊的圖中，我們沿軸顯示了具有兩個超參數(shù)的熱圖，其中每個單元格中的值表示平均通過率，當(dāng)給定相同的token預(yù)算（即t的相同值pass@t）時，自我修復(fù)由基線的平均通過率歸一化。

圖片

從圖中可以看到，對于GPT-3.5模型，pass@t在所有設(shè)置下都低于或等于相應(yīng)的基線（黑），清楚地表明自我修復(fù)對GPT-3.5并不是一種有效的策略。

而在GPT-4（下圖）中，有幾個值的自修復(fù)通過率明顯優(yōu)于基線。

圖片

下圖是和基線的無修復(fù)方法。

GPT-4反饋改進了GPT3.5的修復(fù)結(jié)果

研究人員又進一步進行了新的實驗，評估使用單獨的、更強的模型來生成反饋的效果，目的是為了測試一個假設(shè)：由于模型無法內(nèi)省和調(diào)試自己的代碼，阻礙了自我修復(fù)（比如說對于GPT-3.5）。

圖片

這個實驗的結(jié)果如上圖（亮藍(lán)色）所示。

在絕對性能方面，GPT-3.5，GPT-4確實突破了性能障礙，并且比GPT-3.5的i.i.d.采樣略微更高效。

這表明文本反饋階段本身是至關(guān)重要的，改進它可以緩解GPT-3.5自修復(fù)的瓶頸。

人工反饋顯著提高了GPT-4修復(fù)的成功率

在最后一項實驗中，想要研究在用更強的模型（GPT-4）進行修復(fù)時，加入專家人類程序員的反饋的影響。

研究目的是了解模型識別代碼中錯誤的能力與人類的能力相比如何，以及這如何影響自修復(fù)的下游性能。

研究人員研究人員招募了16名參與者，包括15名研究生和1名專業(yè)機器學(xué)習(xí)工程師。

每個參與者都有五種不同的基礎(chǔ)程序，基于他們的Python經(jīng)驗編寫代碼。

每個程序都取自不同的任務(wù)，參與者永遠(yuǎn)不會看到屬于同一個任務(wù)的兩個不同的程序。

然后，參與者被要求用他們自己的話解釋這個程序做錯了什么。

實驗結(jié)果如下圖所示：

圖片

研究人員發(fā)現(xiàn)，當(dāng)我們用人類參與者的調(diào)試替換GPT-4自己的調(diào)試時，總體成功率提高了1.57×以上。

不出意外的是，隨著問題變得更難，相對差異也會增加，這表明當(dāng)任務(wù)(和代碼)變得更復(fù)雜時，GPT-4產(chǎn)生準(zhǔn)確和有用反饋的能力遠(yuǎn)遠(yuǎn)落后于人類參與者。

作者介紹

Jianfeng Gao（高劍鋒）

高劍鋒是微軟的杰出科學(xué)家和副總裁，也是IEEE Fellow。

在微軟研究院，他是Redmond分部深度學(xué)習(xí)（DL）組的負(fù)責(zé)人。該組的使命是推進DL的最新技術(shù)，并將其應(yīng)用于自然語言和圖像理解以及構(gòu)建對話代理。他領(lǐng)導(dǎo)了構(gòu)建大規(guī)?；A(chǔ)模型的研究，這些模型為微軟的重要人工智能產(chǎn)品提供了支持。

從2022年開始，他負(fù)責(zé)自我改進人工智能的研究，其中包括對LLM（如ChatGPT/GPT4）進行增強和適應(yīng)，以用于商業(yè)人工智能系統(tǒng)的開發(fā)。

在此之前，他于1999年在上海交通大學(xué)獲得博士學(xué)位。

Chenglong Wang

Chenglong Wang是微軟研究院的研究員，此前在華盛頓大學(xué)獲得了博士學(xué)位，并曾就讀于北京大學(xué)。

責(zé)任編輯：張燕妮來源：新智元

代碼訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營