自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

重新審視Prompt優(yōu)化問題,預(yù)測偏差讓語言模型上下文學(xué)習(xí)更強

人工智能 新聞
LLMs 在 In-context Learning 下取得了良好的表現(xiàn),但是選取不同的示例會導(dǎo)致截然不同的表現(xiàn)。一項最新的研究工作從預(yù)測偏差 (predictive bias) 角度,提出了 prompt 搜索策略,近似找到了最優(yōu)的示例組合。

圖片

  • 論文鏈接: https://arxiv.org/abs/2303.13217
  • 代碼鏈接: https://github.com/MaHuanAAA/g_fair_searching

研究介紹

大型語言模型在上下文學(xué)習(xí)中表現(xiàn)出了驚人的能力,這些模型可以通過幾個輸入輸出示例構(gòu)建的上下文進行學(xué)習(xí),無需微調(diào)優(yōu)化直接應(yīng)用于許多下游任務(wù)。然而,先前的研究表明,由于訓(xùn)練樣本 (training examples)、示例順序 (example order) 和提示格式 (prompt formats) 的變化,上下文學(xué)習(xí)可能會表現(xiàn)出高度的不穩(wěn)定性。因此,構(gòu)建適當?shù)?prompt 對于提高上下文學(xué)習(xí)的表現(xiàn)至關(guān)重要。

以前的研究通常從兩個方向研究這個問題:(1)編碼空間中的提示調(diào)整 (prompt tuning),(2)在原始空間中進行搜索 (prompt searching)。

Prompt tuning 的關(guān)鍵思想是將任務(wù)特定的 embedding 注入隱藏層,然后使用基于梯度的優(yōu)化來調(diào)整這些 embeddings。然而,這些方法需要修改模型的原始推理過程并且獲得模型梯度,這在像 GPT-3 和 ChatGPT 這樣的黑盒 LLM 服務(wù)中是不切實際的。此外,提示調(diào)整會引入額外的計算和存儲成本,這對于 LLM 通常是昂貴的。

更可行且高效的方法是通過在原始文本空間中搜索近似的演示樣本和順序來優(yōu)化提示。一些工作從 “Global view” 或 “Local view” 構(gòu)建提示。基于 Global view 的方法通常將提示的不同元素作為整體進行優(yōu)化,以達到更優(yōu)異的性能。例如,Diversity-guided [1] 的方法利用演示的整體多樣性的搜索,或者試圖優(yōu)化整個示例組合順序 [2],以實現(xiàn)更好的性能。與 Global view 相反,基于 Local view 的方法通過設(shè)計不同的啟發(fā)式選擇標準,例如 KATE [3]。

但這些方法都有各自的局限性:(1)目前的大多數(shù)研究主要集中在沿著單個因素搜索提示,例如示例選擇或順序。然而各個因素對性能的總體影響尚不清楚。(2)這些方法通常基于啟發(fā)式標準,需要一個統(tǒng)一的視角來解釋這些方法是如何工作的。(3)更重要的是,現(xiàn)有的方法會全局或局部地優(yōu)化提示,這可能會導(dǎo)致性能不理想。

本文從 “預(yù)測偏差” 的角度重新審視了 NLP 領(lǐng)域中的 prompt 優(yōu)化問題,發(fā)現(xiàn)了一個關(guān)鍵現(xiàn)象:一個給定的 prompt 的質(zhì)量取決于它的內(nèi)在偏差?;谶@個現(xiàn)象,文章提出了一個基于預(yù)測偏差的替代標準來評估 prompt 的質(zhì)量,該度量方法能夠在不需要額外開發(fā)集 (development set) 的情況下通過單個前向過程來評估 prompt。

具體來說,通過在一個給定的 prompt 下輸入一個 “無內(nèi)容” 的測試,期望模型輸出一個均勻的預(yù)測分布(一個 “無內(nèi)容” 的輸入不包含任何有用的信息)。因此,文中利用預(yù)測分布的均勻性來表示給定 prompt 的預(yù)測偏差。這與先前的后校準方法 [4] 用的指標類似,但與后校準在固定的 prompt 情況下使用這個 metric 進行概率后校準不同的是,文中進一步探索了其在自動搜索近似 prompt 中的應(yīng)用。并通過大量實驗證實了一個給定 prompt 的內(nèi)在偏差和它在給定測試集上的平均任務(wù)表現(xiàn)之間的相關(guān)性。

圖片

此外,這種基于偏差的度量使該方法能夠以 “局部到全局” 的方式搜索合適的 prompt。然而,一個現(xiàn)實的問題是無法通過遍歷所有組合的方式搜索最優(yōu)解,因為它的復(fù)雜度將超過 O (N!)。

該工作提出了兩種新穎的策略以高效的方式搜索高質(zhì)量的 prompt:(1) T-fair-Prompting (2) G-fair-Prompting。T-fair-Prompting 使用一種直觀的方式,首先計算每個示例單獨組成 prompt 的偏差,然后選擇 Top-k 個最公平示例組合成最終 prompt。這個策略相當高效,復(fù)雜度為 O (N)。但需要注意的是,T-fair-Prompting 基于這樣的假設(shè):最優(yōu)的 prompt 通常是由偏差最小的示例構(gòu)建的。然而,這在實際情況下可能并不成立,并且往往會導(dǎo)致局部最優(yōu)解。因此,文章中進一步介紹了 G-fair-Prompting 來改善搜索質(zhì)量。G-fair-Prompting 遵循貪心搜索的常規(guī)過程,通過在每個步驟上進行局部最優(yōu)選擇來找到最優(yōu)解。在算法的每一步,所選擇的示例都能使更新的 prompt 獲得最佳的公平性,最壞情況時間復(fù)雜度為 O (N^2),搜索質(zhì)量顯著提高。G-fair-Prompting 從局部到全局的角度進行工作,其中在早期階段考慮單個樣本的偏差,而在后期階段則側(cè)重于減少全局預(yù)測偏差。

實驗結(jié)果

該研究提出了一種有效和可解釋的方法來提高語言模型的上下文學(xué)習(xí)性能,這種方法可以應(yīng)用于各種下游任務(wù)。文章驗證了這兩種策略在各種 LLMs(包括 GPT 系列模型和最近發(fā)布的 LMaMA 系列)上的有效性,G-fair-Prompting 與 SOTA 方法相比,在不同的下游任務(wù)上獲得了超過 10%的相對改進。

圖片

與該研究最相近的是 Calibration-before-use [4] 方法,兩者都使用 “無內(nèi)容” 的輸入提高模型的表現(xiàn)。但是,Calibration-before-use 方法旨在使用該標準來校準輸出,而該輸出仍然容易受到所使用示例的質(zhì)量的影響。與之相比,本文旨在搜索原始空間找到近似最優(yōu)的 prompt,以提高模型的性能,而不需要對模型輸出進行任何后處理。此外,該文首次通過大量實驗驗證了預(yù)測偏差與最終任務(wù)性能之間的聯(lián)系,這在 Calibration-before-use 方法中尚未研究。

圖片

通過實驗還能發(fā)現(xiàn),即使不進行校準,該文章所提方法選擇的 prompt 也可以優(yōu)于經(jīng)過校準的隨機選擇的 prompt。這表明該方法可以在實際應(yīng)用中具有實用性和有效性,可以為未來的自然語言處理研究提供啟示。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-06-15 15:45:42

自然語言語言模型

2023-09-16 13:47:47

人工智能數(shù)據(jù)

2023-07-09 15:09:18

機器學(xué)習(xí)能力

2023-02-13 08:00:00

深度學(xué)習(xí)數(shù)據(jù)算法

2025-03-18 08:14:05

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2024-03-14 08:11:45

模型RoPELlama

2023-11-24 17:01:30

模型推理

2023-07-24 12:27:08

論文斯坦福

2012-12-31 10:01:34

SELinuxSELinux安全

2023-10-23 13:23:03

數(shù)據(jù)訓(xùn)練

2025-03-18 09:10:00

MCPAI模型上下文協(xié)議

2022-09-14 13:13:51

JavaScript上下文

2023-11-26 18:05:00

文本訓(xùn)練

2025-02-06 10:21:51

2025-01-08 11:10:46

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2024-01-03 13:40:00

AI訓(xùn)練

2024-07-17 16:59:51

AI訓(xùn)練

2021-01-26 05:19:56

語言Go Context
點贊
收藏

51CTO技術(shù)棧公眾號