自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

SELF-REFINE: 通過自反饋進(jìn)行迭代優(yōu)化 原創(chuàng)

發(fā)布于 2024-10-14 19:08
瀏覽
0收藏

摘要與人類類似,大型語言模型(LLMs)并不總是在第一次嘗試時(shí)生成最佳輸出。受人類改進(jìn)書面文本方式的啟發(fā),我們提出了SELF-REFINE,這是一種通過迭代反饋和優(yōu)化來改進(jìn)LLMs初始輸出的方法。主要思想是首先使用LLM生成初始輸出;然后,由同一個(gè)LLM對其輸出提供反饋,并使用該反饋對其進(jìn)行自我優(yōu)化。SELF-REFINE 不需要任何監(jiān)督訓(xùn)練數(shù)據(jù)、額外的訓(xùn)練或強(qiáng)化學(xué)習(xí),而是使用單一的LLM作為生成器、優(yōu)化器和反饋提供者。我們在7項(xiàng)不同任務(wù)中評估了SELF-REFINE,這些任務(wù)從對話生成到數(shù)學(xué)推理不等,使用了最先進(jìn)的LLMs(如GPT-3.5和GPT-4)。在所有評估任務(wù)中,使用SELF-REFINE生成的輸出在人工評估和自動(dòng)評估指標(biāo)上均優(yōu)于使用常規(guī)一次生成方法的同一LLM,平均提高約20%的任務(wù)表現(xiàn)。我們的研究表明,即使是最先進(jìn)的LLMs(如GPT-4),也可以通過我們簡單的獨(dú)立方法在測試時(shí)進(jìn)一步改進(jìn)。

1 引言

雖然大型語言模型(LLMs)可以生成連貫的輸出,但它們在應(yīng)對復(fù)雜任務(wù)時(shí)往往表現(xiàn)不佳。這些任務(wù)通常具有多重目標(biāo),例如對話生成,或者目標(biāo)難以定義,例如提升程序的可讀性。在這些情況下,現(xiàn)代LLMs可能會(huì)生成合理的初始輸出,但仍然可以通過進(jìn)一步的迭代優(yōu)化來改進(jìn)輸出質(zhì)量,即通過迭代地將候選輸出映射到更好的輸出,以確保達(dá)到所需的質(zhì)量。迭代優(yōu)化通常涉及訓(xùn)練一個(gè)依賴于特定領(lǐng)域數(shù)據(jù)的優(yōu)化模型(例如,Reid和Neubig,2022;Schick等人,2022a;Welleck等人,2022)。其他依賴外部監(jiān)督或獎(jiǎng)勵(lì)模型的方法需要大量的訓(xùn)練數(shù)據(jù)或昂貴的人類注釋(Madaan等人,2021;Ouyang等人,2022),這在某些情況下可能無法實(shí)現(xiàn)。這些限制凸顯了需要一種有效的優(yōu)化方法,該方法可以應(yīng)用于各種任務(wù),而無需廣泛的監(jiān)督。

迭代自我優(yōu)化是人類解決問題的一個(gè)基本特征(Simon,1962;Flower和Hayes,1981;Amabile,1983)。迭代自我優(yōu)化是一個(gè)包含創(chuàng)建初稿并根據(jù)自我提供的反饋進(jìn)行改進(jìn)的過程。例如,當(dāng)撰寫電子郵件向同事索要文件時(shí),個(gè)人可能會(huì)首先寫一個(gè)直接的請求,如“盡快把數(shù)據(jù)發(fā)給我”。然而,經(jīng)過反思,作者會(huì)意識(shí)到這種措辭可能不夠禮貌,然后將其修改為“嗨,Ashley,你能否在方便的時(shí)候?qū)?shù)據(jù)發(fā)給我?”類似地,當(dāng)編寫代碼時(shí),程序員可能會(huì)先實(shí)現(xiàn)一個(gè)“快速而簡陋”的版本,隨后經(jīng)過反思,將代碼重構(gòu)為更高效、更易讀的解決方案。在本文中,我們展示了LLMs可以在不進(jìn)行額外訓(xùn)練的情況下提供迭代的自我優(yōu)化,從而在廣泛的任務(wù)中生成更高質(zhì)量的輸出。

我們提出了SELF-REFINE:一種迭代自我優(yōu)化算法,通過交替進(jìn)行反饋和優(yōu)化兩個(gè)生成步驟,協(xié)同工作以生成高質(zhì)量的輸出。給定模型M生成的初始輸出,我們將其反饋傳回同一個(gè)模型M,以獲取反饋。然后,反饋再次傳回同一個(gè)模型,以優(yōu)化先前生成的草稿。這個(gè)過程可以重復(fù)進(jìn)行,直到達(dá)到指定的迭代次數(shù)或模型M確定不需要進(jìn)一步優(yōu)化為止。我們使用少量示例提示(few-shot prompting)(Brown等人,2020)引導(dǎo)M生成反饋并將反饋整合到改進(jìn)的草稿中。圖1展示了高層次的概念,即SELF-REFINE使用同一個(gè)底層語言模型生成反饋并優(yōu)化輸出。

SELF-REFINE: 通過自反饋進(jìn)行迭代優(yōu)化-AI.x社區(qū)

圖 1:給定一個(gè)輸入(?),SELF-REFINE 通過生成一個(gè)輸出開始,并將其傳回同一模型 M 以獲取反饋(①)。然后將反饋傳回 M,M 根據(jù)反饋對之前生成的輸出進(jìn)行優(yōu)化(②)。步驟(①)和(②)迭代進(jìn)行,直到滿足停止條件。SELF-REFINE 使用類似 GPT-3.5 的語言模型進(jìn)行實(shí)例化,不涉及人工輔助。

我們在七個(gè)涵蓋不同領(lǐng)域的生成任務(wù)上評估了SELF-REFINE,包括自然語言生成和源代碼生成。我們展示了SELF-REFINE相較于強(qiáng)大的LLMs(如GPT-3.5 [text-davinci-003和gpt-3.5-turbo;OpenAI;Ouyang等,2022] 和 GPT-4 [OpenAI,2023])的直接生成方法,性能提升了5%到40%。在代碼生成任務(wù)中,SELF-REFINE在應(yīng)用于強(qiáng)大的代碼模型(如Codex [code-davinci-002;Chen等,2021])時(shí),將初始生成結(jié)果提升了最高達(dá)13%。我們發(fā)布了所有代碼,這些代碼可以輕松擴(kuò)展到其他LLMs。總的來說,我們的結(jié)果表明,即使LLM在第一次生成時(shí)不能生成最佳輸出,它通??梢蕴峁┯杏玫姆答伈⑾鄳?yīng)地改進(jìn)自己的輸出。因此,SELF-REFINE通過迭代的(自我)反饋和優(yōu)化,提供了一種無需任何額外訓(xùn)練就能從單一模型中獲得更好輸出的有效方法。

2 使用SELF-REFINE進(jìn)行迭代優(yōu)化

給定一個(gè)輸入序列,SELF-REFINE 生成一個(gè)初始輸出,對該輸出提供反饋,并根據(jù)反饋對輸出進(jìn)行優(yōu)化。SELF-REFINE 在反饋和優(yōu)化之間進(jìn)行迭代,直到達(dá)到所需的條件。SELF-REFINE 依賴于一個(gè)合適的語言模型和三個(gè)提示(用于初始生成、反饋和優(yōu)化),且不需要進(jìn)行訓(xùn)練。SELF-REFINE 的工作流程如圖1和算法1所示。接下來,我們將詳細(xì)描述 SELF-REFINE 的工作原理。

初始生成

給定輸入 x 、生成提示  pgen  和模型  M ,SELF-REFINE 生成初始輸出  y0 :

y0 = M(pgen || x)

例如,在圖2(d)中,模型為給定輸入生成了功能上正確的代碼。這里,pgen 是一個(gè)特定任務(wù)的少量樣本提示(或指令)用于初始生成,而 ∥ 表示連接。這個(gè)少量樣本提示包含了任務(wù)的輸入-輸出對 ?x(k), y(k)?。(原文注釋:少量樣本提示(也稱為“上下文學(xué)習(xí)”)為模型提供一個(gè)由目標(biāo)任務(wù)的 k 個(gè)上下文示例組成的提示,每個(gè)示例都是以輸入-輸出對 ?xi, yi? 的形式出現(xiàn)的(Brown 等人,2020)。)

反饋生成

接下來,SELF-REFINE 使用相同的模型 M  為其生成的輸出提供反饋  fbt ,使用的是針對任務(wù)的反饋生成提示  pfb :

fbt = M(pfb || x || yt)

反饋可能涉及輸出的多個(gè)方面。例如,在代碼優(yōu)化中,反饋可能涉及代碼的效率、可讀性和整體質(zhì)量。

在這里,提示 pfb 以輸入-輸出-反饋三元組的形式提供反饋示例 ?x(k)y(k), fb(k)?。我們提示模型通過 fb(k) 寫出可操作且具體的反饋。所謂“可操作”,意味著反饋應(yīng)包含可能改善輸出的具體行動(dòng)。所謂“具體”,意味著反饋應(yīng)指出輸出中需要改變的具體短語。例如,圖 2(e) 中的反饋是“這段代碼因?yàn)槭褂昧吮┝夥ǖ?nbsp;for 循環(huán)而運(yùn)行緩慢。更好的方法是使用公式...(n(n+1))/2”。這個(gè)反饋是可操作的,因?yàn)樗ㄗh采取行動(dòng)“使用公式...”。這個(gè)反饋是具體的,因?yàn)樗岬搅恕癴or 循環(huán)”。

SELF-REFINE: 通過自反饋進(jìn)行迭代優(yōu)化-AI.x社區(qū)

優(yōu)化

然后,SELF-REFINE 使用模型 M  根據(jù)反饋優(yōu)化其最近生成的輸出:

yt+1 = M(prefine || x || yt ||fbt)

例如,在圖 2(f) 中,根據(jù)初始輸出和生成的反饋,模型生成了一個(gè)更短且運(yùn)行速度更快的重新實(shí)現(xiàn)版本。提示 prefine 提供了基于反饋改進(jìn)輸出的示例,形式為輸入-輸出-反饋-優(yōu)化四元組 ?x(k), yt(k), fb(k)t, y(k)t+1?。

迭代 SELF-REFINE

SELF-REFINE 在反饋和優(yōu)化步驟之間交替進(jìn)行,直到滿足停止條件。停止條件 stop(fbt, t)  可以是指定的迭代次數(shù)  t ,也可以是從反饋中提取的停止指標(biāo)(如標(biāo)量停止分?jǐn)?shù))。在實(shí)踐中,模型可以通過提示生成停止指標(biāo),并根據(jù)任務(wù)確定停止條件。

為了讓模型了解之前的迭代,我們通過將以前的反饋和輸出附加到提示中來保留其歷史記錄。直觀上,這可以讓模型從過去的錯(cuò)誤中學(xué)習(xí),并避免重復(fù)這些錯(cuò)誤。更準(zhǔn)確地說,公式(3)實(shí)際上被實(shí)例化為:

yt+1 = M(prefine || x || y0 || fb0 || ... || yt || fbt)

最后,我們將最后的優(yōu)化結(jié)果 y 作為 SELF-REFINE 的輸出。

算法1總結(jié)了SELF-REFINE的流程,圖2展示了SELF-REFINE在對話生成和代碼優(yōu)化任務(wù)中的應(yīng)用示例。關(guān)鍵思想是,SELF-REFINE 使用同一個(gè)底層LLM來生成、獲取反饋并根據(jù)自身的反饋優(yōu)化輸出。它只依賴于少量示例中的監(jiān)督。

SELF-REFINE: 通過自反饋進(jìn)行迭代優(yōu)化-AI.x社區(qū)


圖 2:SELF-REFINE 示例:初始輸出由基礎(chǔ)LLM生成,然后傳回同一LLM以接收反饋,再傳回同一LLM對輸出進(jìn)行優(yōu)化。上排展示了對話生成的例子,其中通過應(yīng)用反饋,將初始對話響應(yīng)轉(zhuǎn)換為更具參與性且更能理解用戶的響應(yīng)。下排展示了代碼優(yōu)化的例子,其中通過應(yīng)用反饋,使代碼變得更高效。

(注釋: 圖 2 內(nèi)容

- (a) 對話:x, yt

- 用戶: 我對打乒乓球感興趣。

- 回應(yīng): 我確信這是一種很好的社交和保持活躍的方式。

- (b) 反饋 fb

- 吸引力: 沒有提供關(guān)于乒乓球或如何打乒乓球的信息。

- 用戶理解: 缺乏對用戶需求和心理狀態(tài)的理解。

- (c) 優(yōu)化 yt+1

- 回應(yīng) (優(yōu)化后): 聽起來你對此很感興趣!這是一項(xiàng)需要快速反應(yīng)和良好手眼協(xié)調(diào)能力的有趣運(yùn)動(dòng)。你以前玩過嗎,還是想學(xué)習(xí)?

- (d) 代碼優(yōu)化:x, yt

- 生成 1 到 N 的和

```python

def sum(n):

res = 0

for i in range(n + 1):

res += i

return res

```

- (e) 反饋 fb

- 這段代碼執(zhí)行緩慢,因?yàn)樗褂昧吮┝夥?。更好的方法是使用公?.. (n(n+1))/2。

- (f) 優(yōu)化 yt+1

- 代碼 (優(yōu)化后)

```python

def sum_faster(n):

return (n  (n + 1)) // 2

```

原理解釋

圖 2 展示了 SELF-REFINE 方法的實(shí)際應(yīng)用實(shí)例。這個(gè)方法利用同一模型(如GPT-3.5或GPT-4)在生成初始輸出后,通過自我反饋循環(huán)對輸出進(jìn)行迭代優(yōu)化。在這個(gè)過程中:

1. 初始生成(如圖中部分 a 和 d):模型根據(jù)給定的輸入(比如對話或代碼生成任務(wù)的指令)生成一個(gè)初始輸出。

2. 生成反饋(如圖中部分 b 和 e):模型評估初始輸出的質(zhì)量或效率,并生成關(guān)于如何改進(jìn)這一輸出的具體反饋。

3. 迭代優(yōu)化(如圖中部分 c 和 f):模型使用反饋來調(diào)整或完全重寫初始輸出,以提高輸出的質(zhì)量或效率。

這種方法的核心優(yōu)勢在于其自適應(yīng)性和迭代性,使得即使是單一模型也能通過自我評估和調(diào)整來顯著改進(jìn)其輸出。通過這種方式,模型可以自主地學(xué)習(xí)并優(yōu)化其性能,而無需外部的數(shù)據(jù)或額外的訓(xùn)練。這在自然語言處理和代碼生成等多種領(lǐng)域均展示了顯著的應(yīng)用潛力。)

3 評估

我們在 7 項(xiàng)跨越不同領(lǐng)域的生成任務(wù)上評估了 SELF-REFINE,這些任務(wù)包括自然語言生成和源代碼生成。我們展示了 SELF-REFINE 相較于強(qiáng)大的 LLMs(如 GPT-3.5 [text-davinci-003 和 gpt-3.5-turbo;OpenAI;Ouyang 等,2022] 和 GPT-4 [OpenAI,2023])的直接生成方法,性能提升了 5% 到 40% 的絕對值。在代碼生成任務(wù)中,SELF-REFINE 應(yīng)用于強(qiáng)大的代碼模型(如 Codex [code-davinci-002;Chen 等,2021])時(shí),將初始生成結(jié)果提升了最高達(dá) 13% 的絕對值。我們發(fā)布了所有代碼,這些代碼可以輕松擴(kuò)展到其他 LLMs。

3.1 SELF-REFINE 的實(shí)例化

我們按照第 2 節(jié)中的高級描述實(shí)例化了 SELF-REFINE。反饋-優(yōu)化的迭代持續(xù)進(jìn)行,直到達(dá)到期望的輸出質(zhì)量或任務(wù)特定標(biāo)準(zhǔn),最多可進(jìn)行 4 次迭代。為了使我們的評估在不同模型之間具有一致性,即使是在對指令響應(yīng)良好的模型(如 ChatGPT 和 GPT-4)中,我們也將反饋和優(yōu)化均實(shí)現(xiàn)為少量示例提示。

基礎(chǔ) LLMs:我們的主要目標(biāo)是評估是否可以通過 SELF-REFINE 來提高任何強(qiáng)大的基礎(chǔ) LLMs 的性能。因此,我們將 SELF-REFINE 與相同的基礎(chǔ) LLMs 但不進(jìn)行反饋-優(yōu)化迭代的生成方法進(jìn)行了比較。在所有任務(wù)中,我們都使用了三種主要的強(qiáng)大基礎(chǔ) LLMs:GPT-3.5(text-davinci-003)、ChatGPT(gpt-3.5-turbo)和 GPT-4(OpenAI,2023)。在代碼相關(guān)的任務(wù)中,我們還嘗試了使用 CODEX(code-davinci-002)。在所有任務(wù)中,GPT-3.5 或 GPT-4 均為先前的最先進(jìn)模型。我們使用了來自先前工作的相同提示(如代碼優(yōu)化和數(shù)學(xué)推理),如果沒有,我們則創(chuàng)建了新的提示,如附錄 S 所述。所有設(shè)置均使用貪婪解碼,溫度為 0.7。

3.2 評估指標(biāo)

我們報(bào)告了三種類型的評估指標(biāo):

- 任務(wù)特定指標(biāo):在可能的情況下,我們使用來自先前工作的自動(dòng)化指標(biāo)(如數(shù)學(xué)推理中的%解答率;代碼優(yōu)化中的%程序優(yōu)化率;約束生成中的覆蓋率%)。

- 人工偏好:在對話響應(yīng)生成、代碼可讀性提升、情感逆轉(zhuǎn)和首字母縮略詞生成任務(wù)中,由于沒有自動(dòng)化指標(biāo),我們對輸出的一個(gè)子集進(jìn)行了盲選人工 A/B 評估,以選擇偏好的輸出。附錄 C 提供了更多詳細(xì)信息。

- GPT-4 偏好:除了人工偏好之外,我們還使用 GPT-4 作為人工偏好的代理,依據(jù)先前的工作(Fu 等,2023;Chiang 等,2023;Geng 等,2023;Sun 等,2023),并發(fā)現(xiàn)與人工偏好高度相關(guān)(情感逆轉(zhuǎn) 82%,首字母縮略詞生成 68%,對話響應(yīng)生成 71%)。對于代碼可讀性提升,我們提示 GPT-4 計(jì)算在給定上下文中適當(dāng)命名的變量所占的比例(例如,將 `x = []` 改為 `input_buffer = []`)。附錄 D 提供了更多詳細(xì)信息。

3.3 結(jié)果

表 1 展示了我們的主要結(jié)果:


SELF-REFINE: 通過自反饋進(jìn)行迭代優(yōu)化-AI.x社區(qū)

SELF-REFINE 在所有模型大小的基礎(chǔ)模型上均表現(xiàn)出了持續(xù)的改進(jìn),并且在所有任務(wù)中還優(yōu)于先前的最先進(jìn)方法。例如,GPT-4+SELF-REFINE 相比基礎(chǔ) GPT-4 在代碼優(yōu)化中絕對提升了 8.7%(優(yōu)化百分比從 27.3% 提高到 36.0%)。附錄 J 中提供了置信區(qū)間。對于代碼相關(guān)的任務(wù),當(dāng)使用 CODEX 時(shí),我們發(fā)現(xiàn)了類似的趨勢;這些結(jié)果包含在附錄 F 中。

在與基礎(chǔ)模型相比,我們觀察到的最大收益之一是在約束生成任務(wù)中,模型需要生成包含多達(dá) 30 個(gè)給定概念的句子。我們認(rèn)為,SELF-REFINE 能夠顯著改善這一任務(wù),因?yàn)樵诘谝淮螄L試時(shí)有更多的機(jī)會(huì)遺漏一些概念,因此 SELF-REFINE 允許模型隨后修正這些錯(cuò)誤。此外,該任務(wù)有非常多的合理輸出,因此 SELF-REFINE 可以更好地探索可能的輸出空間。

在對話響應(yīng)生成、情感逆轉(zhuǎn)和首字母縮略詞生成等基于偏好的任務(wù)中,SELF-REFINE 帶來了尤其高的收益。例如在對話響應(yīng)生成中,GPT-4 的偏好得分提高了 49.2%——從 25.4% 提高到 74.6%。同樣,在其他基于偏好的任務(wù)中,我們在所有模型上都觀察到了顯著的提升。

在數(shù)學(xué)推理中的適度性能提升可以歸因于模型難以準(zhǔn)確識(shí)別是否存在錯(cuò)誤。在數(shù)學(xué)推理中,錯(cuò)誤可能是微妙的,有時(shí)僅限于單行或不正確的運(yùn)算。此外,看似一致的推理鏈可能會(huì)誤導(dǎo) LLMs,使其認(rèn)為“一切看起來都不錯(cuò)”(例如,ChatGPT 對 94% 的實(shí)例的反饋是“所有內(nèi)容看起來都不錯(cuò)”)。在附錄 H.1 中,我們展示了如果一個(gè)外部來源可以識(shí)別當(dāng)前數(shù)學(xué)答案是否錯(cuò)誤,SELF-REFINE 在數(shù)學(xué)推理中的收益要大得多(超過5%)。

基礎(chǔ) LLMs 的改進(jìn)是持續(xù)一致的:通常,GPT-4+SELF-REFINE 在所有任務(wù)中均優(yōu)于 GPT-3.5+SELF-REFINE 和 ChatGPT+SELF-REFINE,即使在某些任務(wù)中基礎(chǔ) GPT-4 的初始結(jié)果低于 GPT-3.5 或 ChatGPT。因此,我們認(rèn)為 SELF-REFINE 允許更強(qiáng)大的模型(如 GPT-4)充分發(fā)揮其潛力,即使這種潛力在標(biāo)準(zhǔn)的單次輸出生成中并未完全表現(xiàn)出來。附錄 F 中提供了與其他強(qiáng)大基線的比較。

4 分析(略)

5 相關(guān)工作

利用人類和機(jī)器生成的自然語言(NL)反饋來精煉輸出,在多種任務(wù)中已被證明非常有效,包括摘要(Scheurer et al., 2022)、腳本生成(Tandon et al., 2021)、程序合成(Le et al., 2022a; Yasunaga and Liang, 2020)和其他任務(wù)(Bai et al., 2022a; Schick et al., 2022b; Saunders et al., 2022a; Bai et al., 2022b; Welleck et al., 2022)。不同的精煉方法在反饋的來源和格式以及獲得精煉器的方式上有所不同。表 3 總結(jié)了與 SELF-REFINE 密切相關(guān)的先前精煉方法。

反饋來源

人類一直是反饋的有效來源(Tandon et al., 2021; Elgohary et al., 2021; Tandon et al., 2022; Bai et al., 2022a)。由于人類反饋成本高昂,幾種方法使用標(biāo)量獎(jiǎng)勵(lì)函數(shù)作為人類反饋的替代品(例如,(Bai et al., 2022a; Liu et al., 2022; Lu et al., 2022; Le et al., 2022a; Welleck et al., 2022))。其他來源,如編譯器(Yasunaga and Liang, 2020)或維基百科編輯(Schick et al., 2022b)可以提供領(lǐng)域特定的反饋。最近,LLMs已被用于為一般領(lǐng)域生成反饋(Fu et al., 2023; Peng et al., 2023; Yang et al., 2022),然而,我們的方法是唯一一種使用 LLM 在其自身輸出上生成反饋以用于精煉的方法。

反饋的表現(xiàn)形式

反饋的形式通??梢苑譃樽匀徽Z言(NL)和非 NL 反饋。非 NL 反饋可以來自人類提供的示例對(Dasgupta et al., 2019)或標(biāo)量獎(jiǎng)勵(lì)(Liu et al., 2022; Le et al., 2022b)。在這項(xiàng)工作中,我們使用 NL 反饋,因?yàn)檫@使得模型能夠輕松地使用生成輸出的同一 LM 提供自我反饋,同時(shí)利用現(xiàn)有的預(yù)訓(xùn)練 LLMs,如 GPT-4。

精煉器類型

已使用反饋和精煉對學(xué)習(xí)有監(jiān)督的精煉器(Schick et al., 2022b; Du et al., 2022; Yasunaga and Liang, 2020; Madaan et al., 2021)。由于收集有監(jiān)督數(shù)據(jù)的成本高昂,一些方法使用模型生成學(xué)習(xí)精煉器(Welleck et al., 2022; Peng et al., 2023)。然而,精煉器是針對每個(gè)新領(lǐng)域進(jìn)行訓(xùn)練的。最后,(Yang et al., 2022)使用為故事生成專門定制的反饋和精煉提示。在這項(xiàng)工作中,我們避免訓(xùn)練單獨(dú)的精煉器,并展示了同一模型可以在多個(gè)領(lǐng)域中用作精煉器和反饋的來源。

非精煉強(qiáng)化學(xué)習(xí)(RL)方法

與擁有顯式精煉模塊的方法不同,一種替代的整合反饋的方式是通過優(yōu)化標(biāo)量獎(jiǎng)勵(lì)函數(shù),例如使用強(qiáng)化學(xué)習(xí)(例如,Stiennon et al. (2020); Lu et al. (2022); Le et al. (2022a))。這些方法與 SELF-REFINE 不同,因?yàn)槟P蜔o法訪問中間生成的反饋。其次,這些 RL 方法需要更新模型的參數(shù),與 SELF-REFINE 不同。


SELF-REFINE: 通過自反饋進(jìn)行迭代優(yōu)化-AI.x社區(qū)

6 限制與討論

我們方法的主要限制是基礎(chǔ)模型需要具備足夠的少數(shù)樣本建模或指令遵循能力,以便學(xué)習(xí)如何提供反饋并在上下文中進(jìn)行精煉,而無需依賴監(jiān)督模型和監(jiān)督數(shù)據(jù)。

此外,本研究中使用的語言模型未開源,即 GPT-3.5、ChatGPT、GPT-4 和 CODEX?,F(xiàn)有文獻(xiàn)(Ouyang 等人,2022)并未詳細(xì)描述這些模型的細(xì)節(jié),如預(yù)訓(xùn)練語料、模型大小和模型偏見。此外,這些模型不是免費(fèi)使用的,使用它們進(jìn)行研究需要一定的資金。盡管如此,我們發(fā)布了我們的代碼和模型輸出,以確保我們工作的可復(fù)現(xiàn)性。

我們的工作另一個(gè)限制是,我們僅在英語數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。在其他語言中,當(dāng)前模型可能無法提供相同的效益。

最后,存在壞行為者使用提示技術(shù)引導(dǎo)模型生成更有害或有毒文本的可能性。我們的方法沒有明確防范這一點(diǎn)。

7 結(jié)論

我們介紹了 SELF-REFINE:一種允許大型語言模型迭代地提供自我反饋并優(yōu)化其自身輸出的新方法。SELF-REFINE 在單個(gè) LLM 內(nèi)運(yùn)作,無需額外的訓(xùn)練數(shù)據(jù)或強(qiáng)化學(xué)習(xí)。我們通過廣泛的任務(wù)展示了 SELF-REFINE 的簡單性和易用性。通過展示 SELF-REFINE 在多種任務(wù)中的潛力,我們的研究為持續(xù)探索和發(fā)展大型語言模型做出了貢獻(xiàn),旨在減少實(shí)際設(shè)置中人類創(chuàng)造過程的成本。我們希望我們的迭代方法將促進(jìn)在這一領(lǐng)域的進(jìn)一步研究。為此,我們匿名提供了我們所有的代碼、數(shù)據(jù)和提示。


本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/7wbN1NL6pmZCB0udqOph6g??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦