被GPT帶飛的In-Context Learning發(fā)展現(xiàn)狀如何?這篇綜述梳理明白了
隨著語言模型和語料庫規(guī)模的逐漸擴(kuò)大,大型語言模型(LLM)展現(xiàn)出更多的潛力。近來一些研究表明,LLM 可以使用 in-context learning(ICL)執(zhí)行一系列復(fù)雜任務(wù),例如解決數(shù)學(xué)推理問題。
來自北京大學(xué)、上海 AI Lab 和加州大學(xué)圣巴巴拉分校的十位研究者近期發(fā)布了一篇關(guān)于 in-context learning 的綜述論文,詳細(xì)梳理了 ICL 研究的當(dāng)前進(jìn)展。
論文地址:?https://arxiv.org/pdf/2301.00234v1.pdf?
in-context learning 的核心思路是類比學(xué)習(xí),下圖描述了語言模型如何使用 ICL 進(jìn)行決策。
首先,ICL 需要一些樣例來形成演示語境,這些樣例通常用自然語言模板編寫。然后,ICL 將查詢問題和演示語境相聯(lián)系,形成 prompt,并且將其輸入語言模型進(jìn)行預(yù)測(cè)。與監(jiān)督學(xué)習(xí)需要使用反向梯度更新模型參數(shù)的訓(xùn)練階段不同,ICL 不需要參數(shù)更新即可使預(yù)訓(xùn)練語言模型直接執(zhí)行預(yù)測(cè)任務(wù),并且模型有望學(xué)習(xí)演示樣例中隱藏的模式,并據(jù)此做出正確的預(yù)測(cè)。
作為一種新的范式,ICL 有很多吸引人的優(yōu)勢(shì)。首先,演示樣例用自然語言格式編寫,這為與大語言模型關(guān)聯(lián)提供了一個(gè)可解釋的接口。通過改變演示樣例和模板(Liu et al., 2022; Lu et al., 2022; Wu et al., 2022; Wei et al., 2022c),這種范式使將人類知識(shí)納入語言模型變得更加容易。第二,in-context learning 類似于人類通過類比學(xué)習(xí)的決策過程。第三,與監(jiān)督式訓(xùn)練相比,ICL 是一個(gè)無需訓(xùn)練的學(xué)習(xí)框架。這不僅可以大大降低模型適應(yīng)新任務(wù)的計(jì)算成本,而且還可以使語言模型即服務(wù)(LMaaS,Sun et al., 2022)成為可能,并輕松應(yīng)用于大規(guī)模的現(xiàn)實(shí)任務(wù)。
盡管 ICL 有著大好的前景,但仍存在許多值得探究的問題,包括它的性能。例如原始的 GPT-3 模型就具備一定的 ICL 能力,但一些研究發(fā)現(xiàn),通過預(yù)訓(xùn)練期間的適應(yīng),這種能力還可以獲得顯著的提升。此外,ICL 的性能對(duì)特定的設(shè)置很敏銳,包括 prompt 模板、語境樣例的選擇和樣例順序等。此外,ICL 的工作機(jī)制雖然看似合理,但仍不夠清晰明了,能夠初步解釋其工作機(jī)制的研究也不多。
本篇綜述論文總結(jié)道,ICL 的強(qiáng)大性能依賴于兩個(gè)階段:
- 培養(yǎng)大型語言模型 ICL 能力的訓(xùn)練階段;
- 大型語言模型根據(jù)特定任務(wù)演示進(jìn)行預(yù)測(cè)的推理階段。
在訓(xùn)練階段,語言模型直接按照語言建模目標(biāo)進(jìn)行訓(xùn)練,例如從左到右的生成。盡管這些模型并沒有專門針對(duì) in-context learning 進(jìn)行優(yōu)化,但 ICL 的能力依舊令人驚喜?,F(xiàn)有的 ICL 研究基本以訓(xùn)練良好的語言模型為主干。
在推理階段,由于輸入和輸出的 label 都是用可解釋的自然語言模板表征的,因此 ICL 性能可以從多個(gè)角度得到優(yōu)化。該綜述論文進(jìn)行了詳細(xì)的描述和比較,并選擇合適的例子進(jìn)行演示,針對(duì)不同的任務(wù)設(shè)計(jì)具體的評(píng)分方法。
這篇綜述論文的大致內(nèi)容和結(jié)構(gòu)如下圖所示,包括:ICL 的正式定義 (§3)、warmup 方法 (§4)、prompt 設(shè)計(jì)策略 (§5) 和評(píng)分函數(shù) (§6)。
此外,§7 深入闡述了當(dāng)前為揭開 ICL 背后工作原理所做的探索。§8 進(jìn)一步為 ICL 提供了有用的評(píng)估與資源,§9 介紹了能顯示出 ICL 有效性的潛在應(yīng)用場(chǎng)景。最后,§10 總結(jié)了 ICL 領(lǐng)域存在的挑戰(zhàn)和潛在的方向,為該領(lǐng)域的進(jìn)一步發(fā)展提供參考。
感興趣的讀者可以閱讀論文原文,了解更多研究細(xì)節(jié)。