自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

比「讓我們一步一步思考」這句咒語還管用,提示工程正在被改進(jìn)

人工智能 新聞
大語言模型可以通過元提示執(zhí)行自動(dòng)提示工程,但由于缺乏足夠的指導(dǎo)以引導(dǎo)大語言模型中的復(fù)雜推理能力,它們的潛力可能沒有完全發(fā)揮。那么該如何指導(dǎo)大語言模型進(jìn)行自動(dòng)提示工程?

大型語言模型(LLM)已經(jīng)是許多自然語言處理任務(wù)的強(qiáng)大工具,只要能給出正確的提示。然而,由于模型的敏感性,找到最優(yōu)提示通常需要進(jìn)行大量手動(dòng)嘗試和試錯(cuò)努力。此外,一旦將初始提示部署到生產(chǎn)環(huán)境中,可能會(huì)出現(xiàn)意想不到的邊緣情況,需要更多輪的手動(dòng)調(diào)整來進(jìn)一步完善提示。

這些挑戰(zhàn)催生了自動(dòng)提示工程的新興研究領(lǐng)域。在這一領(lǐng)域內(nèi),一個(gè)顯著的方法涉及利用 LLM 自身的能力。具體來說,這涉及使用指令對 LLM 進(jìn)行元提示,例如「檢查當(dāng)前提示和一批示例,然后提出一個(gè)新的提示」。

雖然這些方法取得了令人印象深刻的性能,但隨之而來的問題是:什么樣的元提示適用于自動(dòng)提示工程?

為了回答這個(gè)問題,來自南加州大學(xué)、微軟的研究者將兩個(gè)關(guān)鍵觀察聯(lián)系起來:(1)提示工程本身就是需要深層推理的復(fù)雜語言任務(wù):這涉及密切審查模型的錯(cuò)誤、假設(shè)當(dāng)前提示中缺少或誤導(dǎo)了什么、如何將任務(wù)更清晰的傳遞給 LLM。(2) 在 LLM 中,通過促使模型「一步一步地思考」可以引發(fā)復(fù)雜的推理能力,并通過指導(dǎo)它們反思其輸出可以進(jìn)一步提高這種能力。

論文地址:https://arxiv.org/pdf/2311.05661.pdf

通過連接前面的兩個(gè)觀察,研究者進(jìn)行提示工程,這樣做的目的是構(gòu)建一個(gè)元提示,從而指導(dǎo) LLM 更有效地執(zhí)行提示工程 (見下圖 2)。通過反思現(xiàn)有方法的局限性并融合復(fù)雜推理提示的最新進(jìn)展,他們引入了元提示組件,如逐步推理模板和上下文規(guī)范,明確指導(dǎo) LLM 在提示工程過程中進(jìn)行推理。

此外,由于提示工程可以看作是一個(gè)優(yōu)化問題,通過從常見的優(yōu)化概念中汲取靈感,如批處理大小、步長和動(dòng)量,并將它們的口頭表達(dá)引入到元提示中。并且兩個(gè)數(shù)學(xué)推理數(shù)據(jù)集,MultiArith 和 GSM8K 上實(shí)驗(yàn)了這些組件和變體,并確定了一個(gè)表現(xiàn)最佳的組合,將其命名為 PE2。

PE2 取得了強(qiáng)大的實(shí)證性能。在使用 TEXT-DAVINCI-003 作為任務(wù)模型時(shí),PE2 生成的提示在 MultiArith 上超過 zero-shot 思維鏈的一步一步進(jìn)行思考的提示 6.3%,在 GSM8K 上提高了 3.1%。此外,PE2 在性能上優(yōu)于兩個(gè)自動(dòng)提示工程基線,Iterative APE 和 APO (圖 1)。

值得注意的是,PE2 在反事實(shí)任務(wù)上的表現(xiàn)最為有效。此外,該研究還證明了 PE2 在優(yōu)化冗長、現(xiàn)實(shí)世界提示上具有廣泛的適用性。

圖片

在審查 PE2 的提示編輯歷史時(shí),研究者發(fā)現(xiàn) PE2 始終提供有意義的提示編輯。它能夠修正錯(cuò)誤或不完整的提示,并通過添加額外的細(xì)節(jié)使提示更加豐富,從而促成最終性能的提升 (表 4 所示)。

有趣的是,當(dāng) PE2 不知道在八進(jìn)制中進(jìn)行加法運(yùn)算時(shí),它會(huì)從示例中制定自己的算術(shù)規(guī)則:「如果兩個(gè)數(shù)字都小于 50,則將 2 添加到總和中。如果其中一個(gè)數(shù)字是 50 或更大,則將 22 添加到總和中。」盡管這是一個(gè)不完美的簡便解決方案,但它展示了 PE2 在反事實(shí)情境中進(jìn)行推理的非凡能力。

盡管取得了這些成就,研究者也認(rèn)識(shí)到了 PE2 的局限性和失敗案例。PE2 也會(huì)受到 LLM 固有限制的影響和限制,比如忽視給定的指令和產(chǎn)生錯(cuò)誤的合理性 (下表 5 所示)。

圖片

背景知識(shí)

提示工程

提示工程的目標(biāo)是在使用給定的 LLM M_task 作為任務(wù)模型時(shí)(如下公式所示),在給定數(shù)據(jù)集 D 上找到達(dá)到最佳性能的文本提示 p?。更具體地說,假設(shè)所有數(shù)據(jù)集都可以格式化為文本輸入 - 輸出對,即 D = {(x, y)}。一個(gè)用于優(yōu)化提示的訓(xùn)練集 D_train,一個(gè)用于驗(yàn)證的 D_dev,以及一個(gè)用于最終評估的 D_test。按照研究者提出的符號(hào)表示,提示工程問題可以描述為:

圖片

其中,M_task (x; p) 是在給定提示 p 的條件下模型生成的輸出,而 f 是對每個(gè)示例的評估函數(shù)。例如,如果評估指標(biāo)是完全匹配,那么

使用 LLM 進(jìn)行自動(dòng)提示工程

在給定一組初始提示的情況下,自動(dòng)提示工程師將不斷提出新的、可能更好的提示。在時(shí)間戳 t,提示工程師獲得一個(gè)提示 p^(t),并期望寫一個(gè)新提示 p^(t+1)。在新的提示生成過程中,可以選擇檢查一批示例 B = {(x, y, y′ )}。這里 y ′ = M_task (x; p) 表示模型生成的輸出,y 表示真實(shí)標(biāo)簽。使用 p^meta 表示一個(gè)元提示,用于指導(dǎo) LLM 的 M_proposal 提出新的提示。因此,

構(gòu)建一個(gè)更好的元提示 p^meta 以提高所提出的提示 p^(t+1) 的質(zhì)量是本研究的主要關(guān)注點(diǎn)。

構(gòu)建更好的元提示

就像提示在最終任務(wù)性能中發(fā)揮重要作用一樣,引入到公式 2 中的元提示 p^meta 在新提出的提示質(zhì)量以及自動(dòng)提示工程的整體質(zhì)量中起著重要作用。

研究者主要專注于對元提示 p^meta 進(jìn)行提示工程,開發(fā)了可能有助于提高 LLM 提示工程質(zhì)量的元提示組件,并對這些組件進(jìn)行系統(tǒng)的消融研究。

研究者基于以下兩個(gè)動(dòng)機(jī)來設(shè)計(jì)這些組件的基礎(chǔ):(1)提供詳細(xì)的指導(dǎo)和背景信息:(2)融入常見的優(yōu)化器概念。接下來,研究者將更詳細(xì)地描述這些元素并解釋相關(guān)原理。下圖 2 為可視化展示。

圖片

提供詳細(xì)的指令和上下文。在先前的研究中,元提示要么指示提議模型生成提示的釋義,要么包含有關(guān)檢查一批示例的最小指令。因此通過為元提示添加額外的指令和上下文可能是有益的。

(a) 提示工程教程。為了幫助 LLM 更好地理解提示工程的任務(wù),研究者在元提示中提供一個(gè)提示工程的在線教程。

(b) 兩步任務(wù)描述。提示工程任務(wù)可以分解為兩個(gè)步驟,像 Pryzant et al. 所做的那樣:在第一步,模型應(yīng)該檢查當(dāng)前的提示和一批示例。在第二步,模型應(yīng)該構(gòu)建一個(gè)改進(jìn)的提示。然而,在 Pryzant et al. 的方法中,每一步都是即時(shí)解釋的。與之相反的是,研究者考慮的是在元提示中澄清這兩個(gè)步驟,并提前傳遞期望。

(c) 逐步推理模板。為了鼓勵(lì)模型仔細(xì)檢查批次 B 中的每個(gè)示例并反思當(dāng)前提示的局限性,研究者引導(dǎo)提示提議模型 M_proposal 回答一系列問題。例如:輸出是否正確?提示是否正確描述了任務(wù)?是否有必要編輯提示? 

(d) 上下文規(guī)范。在實(shí)踐中,提示插入整個(gè)輸入序列的位置是靈活的。它可以在輸入文本之前描述任務(wù),例如「將英語翻譯成法語」。它也可以出現(xiàn)在輸入文本之后,例如「一步一步地思考」,以引發(fā)推理能力。為了認(rèn)識(shí)到這些不同的上下文,研究者明確指定了提示與輸入之間的相互作用。例如:「Q: <input> A :一步一步地思考?!?/span>

融入常見的優(yōu)化器概念。在前面方程 1 中描述的提示工程問題本質(zhì)上是一個(gè)優(yōu)化問題,而方程 2 中的提示提議可以被視為進(jìn)行一次優(yōu)化步驟。因此,研究者考慮以下在基于梯度的優(yōu)化中常用的概念,并開發(fā)他們元提示中使用的對應(yīng)詞。

(e) 批處理大小。批處理大小是在每個(gè)提示提議步驟 (方程 2) 中使用的 (失敗) 示例數(shù)量。作者在分析中嘗試了批處理大小為 {1, 2, 4, 8}。

(f) 步長。在基于梯度的優(yōu)化中,步長確定模型權(quán)重更新的幅度。在提示工程中,其對應(yīng)物可能是可以修改的單詞(token)數(shù)量。作者直接指定「你可以更改原始提示中的最多 s 個(gè)單詞」,其中 s ∈ {5, 10, 15, None}。

(g) 優(yōu)化歷史和動(dòng)量。動(dòng)量 (Qian, 1999) 是一種通過保持過去梯度的移動(dòng)平均來加速優(yōu)化并避免振蕩的技術(shù)。為了開發(fā)動(dòng)量的語言對應(yīng)部分,本文包含了所有過去的提示(時(shí)間戳為 0, 1, ..., t ? 1)、它們在 dev 集上的表現(xiàn)以及提示編輯的摘要。

實(shí)驗(yàn)

作者使用以下四組任務(wù)來評估 PE2 的有效性和局限性:

1. 數(shù)學(xué)推理;2. 指令歸納;3. 反事實(shí)評估;4. 生產(chǎn)提示。

改進(jìn)的基準(zhǔn)與更新的 LLMs。在表 2 的前兩部分中,作者觀察到使用 TEXT-DAVINCI-003 可以顯著提高性能,表明它更能夠在 Zero-shot CoT 中解決數(shù)學(xué)推理問題。此外,兩個(gè)提示之間的差距縮小了(MultiArith:3.3% → 1.0%,GSM8K:2.3% → 0.6%),表明 TEXT-DAVINCI-003 對提示釋義的敏感性減小。鑒于此,依賴簡單釋義的方法如 Iterative APE,可能無法有效地提升最終結(jié)果。更精確和有針對性的提示編輯是提高性能的必要條件。

圖片

PE2 在各種任務(wù)上優(yōu)于 Iterative APE 和 APO。PE2 能夠找到一個(gè)在 MultiArith 上達(dá)到 92.3% 準(zhǔn)確率(比 Zero-shot CoT 高 6.3%)和在 GSM8K 上達(dá)到 64.0% 的提示 (+3.1%)。此外,PE2 找到的提示在指令歸納基準(zhǔn)、反事實(shí)評估和生產(chǎn)提示上優(yōu)于 Iterative APE 和 APO。

在前面圖 1 中,作者總結(jié)了 PE2 在指令歸納基準(zhǔn)、反事實(shí)評估和生產(chǎn)提示上獲得的性能提升,展示了 PE2 在各種語言任務(wù)上取得了強(qiáng)大的性能。值得注意的是,當(dāng)使用歸納初始化時(shí),PE2 在 12 個(gè)反事實(shí)任務(wù)中的 11 個(gè)上優(yōu)于 APO (圖 6 所示),證明了 PE2 能夠推理矛盾和反事實(shí)情境。

圖片

PE2 生成有針對性的提示編輯和高質(zhì)量提示。在圖 4 (a) 中,作者繪制了提示優(yōu)化過程中提示提議的質(zhì)量。實(shí)驗(yàn)中觀察到三種提示優(yōu)化方法有非常明顯的模式:Iterative APE 基于釋義,因此新生成的提示具有較小的方差。APO 進(jìn)行了大幅度的提示編輯,因此性能在第一步下降。PE2 在這三種方法中是最穩(wěn)定的。在表 3 中,作者列出了這些方法找到的最佳提示。APO 和 PE2 都能夠提供「考慮所有部分 / 細(xì)節(jié)」的指令。此外,PE2 被設(shè)計(jì)為仔細(xì)檢查批次,使其能夠超越簡單的釋義編輯,進(jìn)行非常具體的提示編輯,例如「記得根據(jù)需要添加或減去」。

圖片

了解更多內(nèi)容,請參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-12-03 07:59:21

Go語言進(jìn)程

2022-08-29 15:19:09

CSS煙花動(dòng)畫

2009-07-06 19:29:37

云計(jì)算私有云服務(wù)器虛擬化

2011-06-07 16:03:48

匿名SQL Server

2018-03-07 15:24:41

PythonMySQL

2013-03-18 16:09:27

JavaEEOpenfire

2012-03-22 10:33:33

思杰XenDesktop

2009-12-18 16:27:43

Cisco路由器配置

2022-09-30 15:37:19

Web網(wǎng)站服務(wù)器

2017-09-28 09:40:36

圖像分類準(zhǔn)確率

2024-07-22 11:43:28

LVMPnetLab網(wǎng)絡(luò)

2017-08-24 08:31:41

2009-12-17 08:57:28

Windows 7磁盤分區(qū)

2019-11-04 10:06:19

MySQL索引

2010-07-12 17:10:23

Android應(yīng)用程序

2017-11-29 11:14:52

離線緩存URL協(xié)議緩存

2021-11-12 11:28:01

Linux 內(nèi)核驅(qū)動(dòng)Linux 系統(tǒng)

2025-04-08 09:30:00

SeataDocker分布式系統(tǒng)

2017-07-15 21:10:58

CTOCEO技術(shù)

2020-02-26 08:00:02

14點(diǎn)遭遇真兇
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)