自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

比「讓我們一步一步思考」這句咒語還管用，提示工程正在被改進(jìn)

作者：機(jī)器之心 2023-11-26 17:49:00

人工智能新聞

大語言模型可以通過元提示執(zhí)行自動(dòng)提示工程，但由于缺乏足夠的指導(dǎo)以引導(dǎo)大語言模型中的復(fù)雜推理能力，它們的潛力可能沒有完全發(fā)揮。那么該如何指導(dǎo)大語言模型進(jìn)行自動(dòng)提示工程？

大型語言模型（LLM）已經(jīng)是許多自然語言處理任務(wù)的強(qiáng)大工具，只要能給出正確的提示。然而，由于模型的敏感性，找到最優(yōu)提示通常需要進(jìn)行大量手動(dòng)嘗試和試錯(cuò)努力。此外，一旦將初始提示部署到生產(chǎn)環(huán)境中，可能會(huì)出現(xiàn)意想不到的邊緣情況，需要更多輪的手動(dòng)調(diào)整來進(jìn)一步完善提示。

這些挑戰(zhàn)催生了自動(dòng)提示工程的新興研究領(lǐng)域。在這一領(lǐng)域內(nèi)，一個(gè)顯著的方法涉及利用 LLM 自身的能力。具體來說，這涉及使用指令對 LLM 進(jìn)行元提示，例如「檢查當(dāng)前提示和一批示例，然后提出一個(gè)新的提示」。

雖然這些方法取得了令人印象深刻的性能，但隨之而來的問題是：什么樣的元提示適用于自動(dòng)提示工程？

為了回答這個(gè)問題，來自南加州大學(xué)、微軟的研究者將兩個(gè)關(guān)鍵觀察聯(lián)系起來：（1）提示工程本身就是需要深層推理的復(fù)雜語言任務(wù)：這涉及密切審查模型的錯(cuò)誤、假設(shè)當(dāng)前提示中缺少或誤導(dǎo)了什么、如何將任務(wù)更清晰的傳遞給 LLM。(2) 在 LLM 中，通過促使模型「一步一步地思考」可以引發(fā)復(fù)雜的推理能力，并通過指導(dǎo)它們反思其輸出可以進(jìn)一步提高這種能力。

論文地址：https://arxiv.org/pdf/2311.05661.pdf

通過連接前面的兩個(gè)觀察，研究者進(jìn)行提示工程，這樣做的目的是構(gòu)建一個(gè)元提示，從而指導(dǎo) LLM 更有效地執(zhí)行提示工程 (見下圖 2）。通過反思現(xiàn)有方法的局限性并融合復(fù)雜推理提示的最新進(jìn)展，他們引入了元提示組件，如逐步推理模板和上下文規(guī)范，明確指導(dǎo) LLM 在提示工程過程中進(jìn)行推理。

此外，由于提示工程可以看作是一個(gè)優(yōu)化問題，通過從常見的優(yōu)化概念中汲取靈感，如批處理大小、步長和動(dòng)量，并將它們的口頭表達(dá)引入到元提示中。并且兩個(gè)數(shù)學(xué)推理數(shù)據(jù)集，MultiArith 和 GSM8K 上實(shí)驗(yàn)了這些組件和變體，并確定了一個(gè)表現(xiàn)最佳的組合，將其命名為 PE2。

PE2 取得了強(qiáng)大的實(shí)證性能。在使用 TEXT-DAVINCI-003 作為任務(wù)模型時(shí)，PE2 生成的提示在 MultiArith 上超過 zero-shot 思維鏈的一步一步進(jìn)行思考的提示 6.3％，在 GSM8K 上提高了 3.1％。此外，PE2 在性能上優(yōu)于兩個(gè)自動(dòng)提示工程基線，Iterative APE 和 APO (圖 1)。

值得注意的是，PE2 在反事實(shí)任務(wù)上的表現(xiàn)最為有效。此外，該研究還證明了 PE2 在優(yōu)化冗長、現(xiàn)實(shí)世界提示上具有廣泛的適用性。

在審查 PE2 的提示編輯歷史時(shí)，研究者發(fā)現(xiàn) PE2 始終提供有意義的提示編輯。它能夠修正錯(cuò)誤或不完整的提示，并通過添加額外的細(xì)節(jié)使提示更加豐富，從而促成最終性能的提升 (表 4 所示)。

有趣的是，當(dāng) PE2 不知道在八進(jìn)制中進(jìn)行加法運(yùn)算時(shí)，它會(huì)從示例中制定自己的算術(shù)規(guī)則：「如果兩個(gè)數(shù)字都小于 50，則將 2 添加到總和中。如果其中一個(gè)數(shù)字是 50 或更大，則將 22 添加到總和中。」盡管這是一個(gè)不完美的簡便解決方案，但它展示了 PE2 在反事實(shí)情境中進(jìn)行推理的非凡能力。

盡管取得了這些成就，研究者也認(rèn)識(shí)到了 PE2 的局限性和失敗案例。PE2 也會(huì)受到 LLM 固有限制的影響和限制，比如忽視給定的指令和產(chǎn)生錯(cuò)誤的合理性 (下表 5 所示)。

背景知識(shí)

提示工程

提示工程的目標(biāo)是在使用給定的 LLM M_task 作為任務(wù)模型時(shí)（如下公式所示），在給定數(shù)據(jù)集 D 上找到達(dá)到最佳性能的文本提示 p?。更具體地說，假設(shè)所有數(shù)據(jù)集都可以格式化為文本輸入 - 輸出對，即 D = {(x, y)}。一個(gè)用于優(yōu)化提示的訓(xùn)練集 D_train，一個(gè)用于驗(yàn)證的 D_dev，以及一個(gè)用于最終評估的 D_test。按照研究者提出的符號(hào)表示，提示工程問題可以描述為：

其中，M_task (x; p) 是在給定提示 p 的條件下模型生成的輸出，而 f 是對每個(gè)示例的評估函數(shù)。例如，如果評估指標(biāo)是完全匹配，那么

使用 LLM 進(jìn)行自動(dòng)提示工程

在給定一組初始提示的情況下，自動(dòng)提示工程師將不斷提出新的、可能更好的提示。在時(shí)間戳 t，提示工程師獲得一個(gè)提示 p^(t)，并期望寫一個(gè)新提示 p^(t+1)。在新的提示生成過程中，可以選擇檢查一批示例 B = {(x, y, y′ )}。這里 y ′ = M_task (x; p) 表示模型生成的輸出，y 表示真實(shí)標(biāo)簽。使用 p^meta 表示一個(gè)元提示，用于指導(dǎo) LLM 的 M_proposal 提出新的提示。因此，

構(gòu)建一個(gè)更好的元提示 p^meta 以提高所提出的提示 p^(t+1) 的質(zhì)量是本研究的主要關(guān)注點(diǎn)。

構(gòu)建更好的元提示

就像提示在最終任務(wù)性能中發(fā)揮重要作用一樣，引入到公式 2 中的元提示 p^meta 在新提出的提示質(zhì)量以及自動(dòng)提示工程的整體質(zhì)量中起著重要作用。

研究者主要專注于對元提示 p^meta 進(jìn)行提示工程，開發(fā)了可能有助于提高 LLM 提示工程質(zhì)量的元提示組件，并對這些組件進(jìn)行系統(tǒng)的消融研究。

研究者基于以下兩個(gè)動(dòng)機(jī)來設(shè)計(jì)這些組件的基礎(chǔ)：（1）提供詳細(xì)的指導(dǎo)和背景信息：（2）融入常見的優(yōu)化器概念。接下來，研究者將更詳細(xì)地描述這些元素并解釋相關(guān)原理。下圖 2 為可視化展示。

提供詳細(xì)的指令和上下文。在先前的研究中，元提示要么指示提議模型生成提示的釋義，要么包含有關(guān)檢查一批示例的最小指令。因此通過為元提示添加額外的指令和上下文可能是有益的。

(a) 提示工程教程。為了幫助 LLM 更好地理解提示工程的任務(wù)，研究者在元提示中提供一個(gè)提示工程的在線教程。

(b) 兩步任務(wù)描述。提示工程任務(wù)可以分解為兩個(gè)步驟，像 Pryzant et al. 所做的那樣：在第一步，模型應(yīng)該檢查當(dāng)前的提示和一批示例。在第二步，模型應(yīng)該構(gòu)建一個(gè)改進(jìn)的提示。然而，在 Pryzant et al. 的方法中，每一步都是即時(shí)解釋的。與之相反的是，研究者考慮的是在元提示中澄清這兩個(gè)步驟，并提前傳遞期望。

(c) 逐步推理模板。為了鼓勵(lì)模型仔細(xì)檢查批次 B 中的每個(gè)示例并反思當(dāng)前提示的局限性，研究者引導(dǎo)提示提議模型 M_proposal 回答一系列問題。例如：輸出是否正確？提示是否正確描述了任務(wù)？是否有必要編輯提示？

(d) 上下文規(guī)范。在實(shí)踐中，提示插入整個(gè)輸入序列的位置是靈活的。它可以在輸入文本之前描述任務(wù)，例如「將英語翻譯成法語」。它也可以出現(xiàn)在輸入文本之后，例如「一步一步地思考」，以引發(fā)推理能力。為了認(rèn)識(shí)到這些不同的上下文，研究者明確指定了提示與輸入之間的相互作用。例如：「Q: <input> A ：一步一步地思考?！?/span>

融入常見的優(yōu)化器概念。在前面方程 1 中描述的提示工程問題本質(zhì)上是一個(gè)優(yōu)化問題，而方程 2 中的提示提議可以被視為進(jìn)行一次優(yōu)化步驟。因此，研究者考慮以下在基于梯度的優(yōu)化中常用的概念，并開發(fā)他們元提示中使用的對應(yīng)詞。

(e) 批處理大小。批處理大小是在每個(gè)提示提議步驟 (方程 2) 中使用的 (失敗) 示例數(shù)量。作者在分析中嘗試了批處理大小為 {1, 2, 4, 8}。

(f) 步長。在基于梯度的優(yōu)化中，步長確定模型權(quán)重更新的幅度。在提示工程中，其對應(yīng)物可能是可以修改的單詞（token）數(shù)量。作者直接指定「你可以更改原始提示中的最多 s 個(gè)單詞」，其中 s ∈ {5, 10, 15, None}。

(g) 優(yōu)化歷史和動(dòng)量。動(dòng)量 (Qian, 1999) 是一種通過保持過去梯度的移動(dòng)平均來加速優(yōu)化并避免振蕩的技術(shù)。為了開發(fā)動(dòng)量的語言對應(yīng)部分，本文包含了所有過去的提示（時(shí)間戳為 0, 1, ..., t ? 1）、它們在 dev 集上的表現(xiàn)以及提示編輯的摘要。

實(shí)驗(yàn)

作者使用以下四組任務(wù)來評估 PE2 的有效性和局限性：

1. 數(shù)學(xué)推理；2. 指令歸納；3. 反事實(shí)評估；4. 生產(chǎn)提示。

改進(jìn)的基準(zhǔn)與更新的 LLMs。在表 2 的前兩部分中，作者觀察到使用 TEXT-DAVINCI-003 可以顯著提高性能，表明它更能夠在 Zero-shot CoT 中解決數(shù)學(xué)推理問題。此外，兩個(gè)提示之間的差距縮小了（MultiArith：3.3% → 1.0%，GSM8K：2.3% → 0.6%），表明 TEXT-DAVINCI-003 對提示釋義的敏感性減小。鑒于此，依賴簡單釋義的方法如 Iterative APE，可能無法有效地提升最終結(jié)果。更精確和有針對性的提示編輯是提高性能的必要條件。

PE2 在各種任務(wù)上優(yōu)于 Iterative APE 和 APO。PE2 能夠找到一個(gè)在 MultiArith 上達(dá)到 92.3% 準(zhǔn)確率（比 Zero-shot CoT 高 6.3%）和在 GSM8K 上達(dá)到 64.0% 的提示 (+3.1%)。此外，PE2 找到的提示在指令歸納基準(zhǔn)、反事實(shí)評估和生產(chǎn)提示上優(yōu)于 Iterative APE 和 APO。

在前面圖 1 中，作者總結(jié)了 PE2 在指令歸納基準(zhǔn)、反事實(shí)評估和生產(chǎn)提示上獲得的性能提升，展示了 PE2 在各種語言任務(wù)上取得了強(qiáng)大的性能。值得注意的是，當(dāng)使用歸納初始化時(shí)，PE2 在 12 個(gè)反事實(shí)任務(wù)中的 11 個(gè)上優(yōu)于 APO (圖 6 所示)，證明了 PE2 能夠推理矛盾和反事實(shí)情境。

PE2 生成有針對性的提示編輯和高質(zhì)量提示。在圖 4 (a) 中，作者繪制了提示優(yōu)化過程中提示提議的質(zhì)量。實(shí)驗(yàn)中觀察到三種提示優(yōu)化方法有非常明顯的模式：Iterative APE 基于釋義，因此新生成的提示具有較小的方差。APO 進(jìn)行了大幅度的提示編輯，因此性能在第一步下降。PE2 在這三種方法中是最穩(wěn)定的。在表 3 中，作者列出了這些方法找到的最佳提示。APO 和 PE2 都能夠提供「考慮所有部分 / 細(xì)節(jié)」的指令。此外，PE2 被設(shè)計(jì)為仔細(xì)檢查批次，使其能夠超越簡單的釋義編輯，進(jìn)行非常具體的提示編輯，例如「記得根據(jù)需要添加或減去」。

了解更多內(nèi)容，請參考原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="vpxf5"></legend>

<big id="vpxf5"><code id="vpxf5"><rp id="vpxf5"></rp></code></big>