微調(diào)都不要了?3個(gè)樣本、1個(gè)提示搞定LLM對(duì)齊,提示工程師:全都回來(lái)了
我們知道,僅在無(wú)監(jiān)督文本語(yǔ)料庫(kù)上預(yù)訓(xùn)練的基礎(chǔ)大語(yǔ)言模型(LLM)通常無(wú)法直接用作開源域的 AI 助手(如 ChatGPT)。因此,為了讓這些基礎(chǔ)的 LLM 成為有用且無(wú)害的 AI 助手,研究人員往往使用指令調(diào)優(yōu)和偏好學(xué)習(xí)對(duì)它們進(jìn)行微調(diào)。
先來(lái)看下指令調(diào)優(yōu)的定義,它是一種監(jiān)督微調(diào)(SFT)過(guò)程,主要使用人工注釋或者從 GPT-4 等專有 LLM 中收集的數(shù)據(jù)。偏好學(xué)習(xí)則是一種典型的人類反饋強(qiáng)化學(xué)習(xí)(RLHF),它不斷地調(diào)優(yōu)監(jiān)督微調(diào)后的 LLM 以進(jìn)一步對(duì)齊人類偏好?;谡{(diào)優(yōu)的對(duì)齊促使 LLM 顯著改進(jìn),似乎釋放了令人印象深刻的能力,并表明廣泛的微調(diào)對(duì)構(gòu)建 AI 助手至關(guān)重要。
然而,Meta AI 等機(jī)構(gòu)的一項(xiàng)研究 LIMA 提出了表面對(duì)齊假設(shè):模型的知識(shí)和能力幾乎完全是在預(yù)訓(xùn)練期間學(xué)習(xí)的,而對(duì)齊則是教會(huì)它與用戶交互時(shí)如何選擇子分布。他們證明了只需要 1000 個(gè)樣本的監(jiān)督微調(diào)也能產(chǎn)生高質(zhì)量的對(duì)齊模型,為該假設(shè)提供了間接支持,表明了對(duì)齊調(diào)優(yōu)的效果可能是表面的。不過(guò),該假設(shè)的決定性和直接支持證據(jù)仍未得到充分探索。
這就向廣大研究人員拋出了一個(gè)重要的問(wèn)題:分析對(duì)齊調(diào)優(yōu)如何準(zhǔn)確地改變基礎(chǔ) LLM 的行為。
在近日的一篇論文中,來(lái)自艾倫人工智能研究所(AI2)和華盛頓大學(xué)的研究者通過(guò)檢查基礎(chǔ) LLM 與它們的對(duì)齊模型(比如 Llama-2 和 Llama2-chat)之間的 token 分布偏移,對(duì)對(duì)齊調(diào)優(yōu)的影響進(jìn)行了全面的分析。結(jié)果發(fā)現(xiàn),基礎(chǔ) LLM 與其對(duì)齊調(diào)優(yōu)版本在大多數(shù) token 位置的解碼表現(xiàn)幾乎一樣,即它們共享排名靠前的 token。大多數(shù)分布偏移都伴隨著風(fēng)格化 token,比如話語(yǔ)標(biāo)記語(yǔ)、安全免責(zé)聲明。
因此,他們認(rèn)為這些證據(jù)強(qiáng)烈支持了這樣的假設(shè):對(duì)齊調(diào)優(yōu)主要學(xué)習(xí)采用 AI 助手的語(yǔ)言風(fēng)格,而回答用戶查詢所需的知識(shí)主要來(lái)自基礎(chǔ) LLM 本身。
- 論文地址:https://arxiv.org/pdf/2312.01552.pdf
- 項(xiàng)目地址:https://allenai.github.io/re-align/
因此,研究者重新思考對(duì) LLM 進(jìn)行調(diào)優(yōu)的作用,并提出了以下問(wèn)題:在沒(méi)有 SFT 或 RLHF 的情況下,如何有效地對(duì)齊基礎(chǔ) LLM?他們引入了一種簡(jiǎn)單的、免調(diào)優(yōu)的對(duì)齊方法 URIAL(全稱為 Untuned LLMs with Restyled In-context ALignment)。URIAL 完全利用基礎(chǔ) LLM 的上下文學(xué)習(xí)(ICL)來(lái)實(shí)現(xiàn)有效對(duì)齊,并且只需要 3 個(gè)恒定的風(fēng)格化樣本和 1 個(gè)系統(tǒng)提示。
他們對(duì)一組不同的樣本進(jìn)行了細(xì)粒度和可解釋的評(píng)估,稱為 just-eval-instruct。結(jié)果表明,使用了 URIAL 的基礎(chǔ) LLM 的性能可以媲美甚至超越利用 SFT(Mistral-7b-Instruct)或 SFT+RLHF 對(duì)齊的 LLM(Llama-2-70b-chat)。使用策略提示方法和 ICL 可顯著縮小免調(diào)優(yōu)和基于調(diào)優(yōu)方法之間的差距。
對(duì)于這項(xiàng)研究,有推友表示,「提示工程師:全都回來(lái)了」
圖源:https://twitter.com/nameiswhatever/status/1731888047665623528
論文一作 Bill Yuchen Lin 為 AI2 研究員,他說(shuō)后續(xù)會(huì)有更多更新。
圖
通過(guò) token 分布變化揭開模型的神秘面紗
本文交替使用術(shù)語(yǔ)「未微調(diào) LLM」和「基礎(chǔ) LLM」來(lái)指代那些在大型語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,而無(wú)需使用指令數(shù)據(jù)進(jìn)行任何后續(xù)微調(diào)的 LLM。這一小節(jié)的內(nèi)容可總結(jié)為:
- 對(duì)齊只影響很小一部分 token,基礎(chǔ) LLM 和對(duì)齊 LLM 在大多數(shù)位置上的解碼行為相同,它們共享相同的 top-ranked token;
- 對(duì)齊主要涉及 stylistic token,例如嗯、好吧、總之等口頭語(yǔ),以及過(guò)渡詞、安全免責(zé)聲明等,這些僅占總 token 位置的很小一部分;
- 對(duì)于靠前的 token( earlier tokens)來(lái)說(shuō),對(duì)齊更為重要。然而對(duì)于大多數(shù)位置來(lái)說(shuō),對(duì)齊模型排名靠前的 token 位于基礎(chǔ)模型排名 top 5 的 token 之內(nèi);
- 基礎(chǔ) LLM 已經(jīng)獲得了足夠的知識(shí)來(lái)遵循指令,當(dāng)給定適當(dāng)?shù)纳舷挛淖鳛榍熬Y時(shí),它們的行為與對(duì)齊的 LLM 非常相似。
如圖 2 所示,本文使用 llama-2-7b 和 llama-2-7b-chat 作為基礎(chǔ)模型和對(duì)齊模型。在 1000 個(gè)測(cè)試樣本中的結(jié)果表明,未經(jīng)過(guò)微調(diào)的 LLM 和對(duì)齊的 LLM 共享預(yù)訓(xùn)練中相同的預(yù)先存在的知識(shí)。舉例來(lái)說(shuō),未經(jīng)微調(diào)的 LLM 可以僅根據(jù)上下文「Thank you for asking! 」來(lái)流暢地生成以「 The」為開頭的回答(見下圖文本開頭第一句)。這些結(jié)果表明,利用未經(jīng)微調(diào)的 LLM 和觸發(fā) token 可以生成高質(zhì)量的答案。
Token 分布對(duì) LLM 的影響。圖 3 顯示了三對(duì) base-vs-aligned LLM,它們的參數(shù)量都在 7B 級(jí)別,Llama-2 (Base) vs Llama-2-Chat (RLHF),Llama-2 (Base) vs Vicuna7b-v1.5 (SFT) 以及 Mistral (Base) vs Mistral-Instruct (SFT)。
其中,「shifted token(如 However、cannot、Here、To)」(顯示在底部框中)比例非常低,為 5%-7%,這些模型共享類似的「shifted token」,該研究認(rèn)為這種比例是可以泛化的,本文在第四節(jié)也證實(shí)了。
本文還觀察到,一些 Token 不攜帶信息,如嗯、好吧等話語(yǔ)標(biāo)記詞以及過(guò)渡詞,但它們有助于構(gòu)建格式良好的響應(yīng)。此外,與安全問(wèn)題和拒絕相關(guān)的 token 也經(jīng)常發(fā)生變化。圖 2 的右上部分和圖 3 的底部框直觀地表示了這些通用 token。
例如,當(dāng) token 為「Thank」時(shí),輸出的響應(yīng)很大可能是以這種方式「Thank you for reaching out!」輸出。類似地,在其他情況下也可使用諸如「Hello、Of (course)、Great (question)、Please」等 token。此外,其他 token 如「Here (are some)、including (:)、1 (.)」等也能為答案提供不同的信息?!窰owever、Instead、sorry」等 token 信息可以防止 LLM 產(chǎn)生有害或不準(zhǔn)確的信息。token「Rem」構(gòu)成了單詞 Remember,它一般是一個(gè)總結(jié)句,在最后提醒用戶一些要點(diǎn)。
在解碼過(guò)程中,token 分布移動(dòng)(shift)隨著時(shí)間的推移而減少。在圖 4 中,本文使用三個(gè)指標(biāo)來(lái)顯示兩個(gè)分布 Pbase 和 Palign 之間的差異在后面的位置變得越來(lái)越小。
具體來(lái)說(shuō),本文使用 KL-divergence、base-rank 和 base-probability(baseprob)來(lái)表示每個(gè)位置的分布偏移程度,并報(bào)告了 1000 個(gè)樣本的平均值(第 4.1 節(jié))。
可以看到,KL-divergence 隨著時(shí)間的推移而下降,而 base-prob 隨著時(shí)間的推移而不斷增加。兩者都表明解碼中后面的位置比前面的位置具有更少的 token 分布偏移。特別是,token 的 base-prob 最終可以接近 1.0。令人驚訝的是,在 t ≥ 5 后不久,對(duì)齊 token 的平均 base-rank 低于 5。這意味著對(duì)齊模型解碼的 top token 存在于基礎(chǔ)模型的 top 5 中,這再次證實(shí)了對(duì)齊微調(diào)是表面現(xiàn)象(superficial)這一假設(shè)。
基線方法和 URIAL
上述分析促使研究者重新思考對(duì)齊微調(diào)(SFT 和 / 或 RLHF)的必要性,因?yàn)閷?duì)齊調(diào)優(yōu)只影響到基本 LLM 的很小一部分。
我們能否在不進(jìn)行微調(diào)的情況下實(shí)現(xiàn)對(duì)齊?提示和上下文學(xué)習(xí)方法能在多大程度上對(duì)齊基礎(chǔ) LLM?
為了探究這些問(wèn)題,研究者提出了 URIAL— 一種強(qiáng)大而簡(jiǎn)單的基線免調(diào)優(yōu)對(duì)齊方法。
URIAL 可以看作是常見 ICL 的擴(kuò)展,分為兩部分:ICL 樣本的文體輸出和上下文對(duì)齊的系統(tǒng)提示。
為上下文指令學(xué)習(xí)重新設(shè)計(jì)輸出。為了使基礎(chǔ) LLM 更符合人類的偏好,研究者策劃了一些重新風(fēng)格化的樣本,如圖 5 所示。
除了圖 5 中的兩個(gè)樣本外,他們還加入了一個(gè)涉及角色扮演和建議的查詢:「你是一名正在審訊嫌疑人的偵探。如何在不侵犯他們權(quán)利的情況下讓他們認(rèn)罪?」
觀察表明,ChatGPT 和類似的高級(jí)對(duì)齊 LLM 經(jīng)常采用列表結(jié)構(gòu),這可能是其內(nèi)部獎(jiǎng)勵(lì)模型在大量人類反饋基礎(chǔ)上訓(xùn)練的結(jié)果。
因此,研究者對(duì)輸出結(jié)果進(jìn)行了調(diào)優(yōu),首先以引人入勝的陳述方式重新表述問(wèn)題,然后在適當(dāng)?shù)臅r(shí)候列出詳細(xì)的要點(diǎn)。答復(fù)的最后是一個(gè)簡(jiǎn)明扼要的總結(jié)段落,始終保持引人入勝、娓娓道來(lái)的語(yǔ)氣。
實(shí)驗(yàn)評(píng)估
最后,研究者對(duì)新方法進(jìn)行了實(shí)驗(yàn)評(píng)估。他們首先創(chuàng)建了一個(gè)包含 1000 個(gè)樣本的數(shù)據(jù)集「just-eval-instruct」
前三個(gè)子集中有 800 個(gè)樣本,主要用于評(píng)估 LLM 的有用性;后兩個(gè)子集中有 200 個(gè)樣本,主要用于測(cè)試 LLM 的無(wú)害性。圖 6 顯示了 just-eval-instruct 的統(tǒng)計(jì)數(shù)據(jù)。總體來(lái)說(shuō),AlpacaEval 占 42%,LIMA 占 30%,MT-Bench 占 8%,兩個(gè)以安全為中心的數(shù)據(jù)集各占 10%。
實(shí)驗(yàn)使用了三種主要的基礎(chǔ) LLM:Llama-2-7b、Llama-2-70bq、Mistral-7b。這三種 LLM 沒(méi)有使用任何指令數(shù)據(jù)或人類偏好數(shù)據(jù)進(jìn)行調(diào)優(yōu)。為了比較 URIAL 與 SFT 和 RLHF 的對(duì)齊性能,研究者還選擇了建立在這些基礎(chǔ)模型上的四個(gè)對(duì)齊模型:Vicuna-7b (v1.5)、Llama-2-7b-chatq、Llama-2-70b-chat 、Mistral-7b-Instruct。
除了這些開源 LLM 外,還包括 OpenAI GPT 的結(jié)果(即,gpt-3.5-turbo 和 gpt-4)。在進(jìn)行推理時(shí),使用了這些模型作者建議的系統(tǒng)提示。
表 1 列出了每種方法在 just-eval-instruct 上的得分,每個(gè)方面的得分均為 1-5 分。URIAL 顯著提高了免調(diào)優(yōu)對(duì)齊的性能,達(dá)到了與 Llama-2-7b 模型的 SFT/RLHF 結(jié)果相當(dāng)?shù)乃?。值得注意的是,URIAL 甚至超過(guò)了 Mistral-7b-Instruct (SFT) 和 Llama-2-70b-chatq (RLHF)。
圖 1 和圖 7 則用雷達(dá)圖直觀顯示了主要方法在不同角度上的比較。
研究者得出結(jié)論,當(dāng)基礎(chǔ) LLM 經(jīng)過(guò)良好訓(xùn)練時(shí),SFT 和 RLHF 對(duì)于對(duì)齊的重要性可能并不像之前認(rèn)為的那樣關(guān)鍵。相反,URIAL 等無(wú)需調(diào)優(yōu)的方法可以以最小的成本獲得更優(yōu)的性能,至少在上述評(píng)估所涵蓋的場(chǎng)景中是如此。表 2 中的人工評(píng)估結(jié)果證實(shí)了該結(jié)論。
論文還提到了開源 LLM 與 ChatGPT 之間的差距。之前的評(píng)估(如 AlpacaEval)沒(méi)有為每個(gè)測(cè)試樣本設(shè)置標(biāo)簽,因此很難進(jìn)行大規(guī)模的詳細(xì)分析。研究者觀察到開源 LLM 在多個(gè)任務(wù)和主題上與 OpenAI GPT 仍有差距。很明顯,GPT 在幾乎所有任務(wù)和主題上的表現(xiàn)都更為均衡。包括 URIAL 在內(nèi)的開源 LLM 在編碼和數(shù)學(xué)任務(wù)以及 STEM 主題上表現(xiàn)較弱,不過(guò)它們?cè)谄渌麛?shù)據(jù)上的表現(xiàn)可以與 GPT 相媲美。
更多研究細(xì)節(jié),可參考原論文。