預(yù)測(cè)未來(lái)模型能力!微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 原創(chuàng)
預(yù)測(cè)未來(lái)模型能力!微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 在加州大學(xué)伯克利分校的智慧殿堂中,一群天才研究者們正試圖解開現(xiàn)代大型語(yǔ)言模型(LLM)擴(kuò)展中的一個(gè)根本性難題:涌現(xiàn)能力的不可預(yù)測(cè)性。想象一下,你正在訓(xùn)練一個(gè)語(yǔ)言模型,它的預(yù)訓(xùn)練損失隨著計(jì)算量的增加而可預(yù)測(cè)地下降,就像一個(gè)乖巧的學(xué)生按部就班地學(xué)習(xí)。但當(dāng)涉及到下游任務(wù)時(shí),情況就變得復(fù)雜了——有時(shí)模型會(huì)在某個(gè)看似隨機(jī)的點(diǎn)上突然“開竅”,這種“涌現(xiàn)”現(xiàn)象讓預(yù)測(cè)未來(lái)模型的能力變得異常困難。
在這項(xiàng)研究中,Charlie Snell、Eric Wallace、Dan Klein、Sergey Levine等研究者們提出了一個(gè)有趣的任務(wù):給定當(dāng)前LLM在某個(gè)任務(wù)上的隨機(jī)少樣本準(zhǔn)確率,我們能否預(yù)測(cè)未來(lái)的模型(比如GPT-N+1)在這個(gè)任務(wù)上是否會(huì)有顯著的準(zhǔn)確率提升?他們發(fā)現(xiàn)了一個(gè)簡(jiǎn)單的洞察:通過(guò)在特定任務(wù)上微調(diào)LLM,可以提前“喚醒”這些模型,使其在更少的計(jì)算量下展現(xiàn)出涌現(xiàn)能力。這就像是在考試前給學(xué)生一些針對(duì)性的練習(xí)題,讓他們?cè)诳荚囍斜憩F(xiàn)得更好。
為了驗(yàn)證這一洞察,研究者們?cè)谒膫€(gè)標(biāo)準(zhǔn)的NLP基準(zhǔn)測(cè)試(MMLU、GSM8K、CommonsenseQA和CoLA)上進(jìn)行了實(shí)驗(yàn),這些測(cè)試中大型開源LLM已經(jīng)展示了涌現(xiàn)能力。他們發(fā)現(xiàn),通過(guò)微調(diào)小規(guī)模的LLM,有時(shí)可以準(zhǔn)確預(yù)測(cè)那些使用多達(dá)4倍計(jì)算量訓(xùn)練的模型是否會(huì)出現(xiàn)涌現(xiàn)現(xiàn)象。這就像是在小規(guī)模實(shí)驗(yàn)中發(fā)現(xiàn)了一種神奇的“涌現(xiàn)法則”,然后用它來(lái)預(yù)測(cè)更大規(guī)模的實(shí)驗(yàn)結(jié)果。
研究者們還展示了兩個(gè)實(shí)際應(yīng)用案例:一是利用涌現(xiàn)預(yù)測(cè)來(lái)廉價(jià)評(píng)估預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量,二是預(yù)測(cè)未來(lái)前沿模型的更復(fù)雜能力。這就像是用一種新的“涌現(xiàn)法則”來(lái)預(yù)測(cè)未來(lái)的科技發(fā)展,幫助科學(xué)家們更好地規(guī)劃和準(zhǔn)備。
這項(xiàng)研究不僅展示了微調(diào)在預(yù)測(cè)涌現(xiàn)能力中的重要作用,還為未來(lái)的研究指明了方向。雖然目前的“涌現(xiàn)法則”還不能像預(yù)測(cè)天氣那樣精確,但它已經(jīng)為我們打開了一扇通往未知世界的大門,讓我們對(duì)未來(lái)充滿期待。 在現(xiàn)代大型語(yǔ)言模型(LLM)的擴(kuò)展中,一個(gè)根本性的開放挑戰(zhàn)是對(duì)涌現(xiàn)能力的理解不足。特別是,語(yǔ)言模型的預(yù)訓(xùn)練損失作為計(jì)算的函數(shù)是高度可預(yù)測(cè)的,但下游能力卻遠(yuǎn)不可預(yù)測(cè),有時(shí)甚至?xí)霈F(xiàn)突變,這使得預(yù)測(cè)未來(lái)模型的能力變得困難。本文提出了一種通過(guò)微調(diào)來(lái)預(yù)測(cè)未來(lái)模型(如GPT-N+1)在特定任務(wù)上是否會(huì)有顯著準(zhǔn)確率的方法。
主要方法
- 微調(diào)與涌現(xiàn)能力的關(guān)系:
- 研究發(fā)現(xiàn),對(duì)LLM進(jìn)行特定任務(wù)的微調(diào)可以系統(tǒng)地將涌現(xiàn)能力出現(xiàn)的點(diǎn)向能力較弱的模型轉(zhuǎn)移。通過(guò)微調(diào),模型在較少的數(shù)據(jù)量下就能展現(xiàn)出顯著的性能提升,從而提前預(yù)測(cè)未來(lái)模型在特定任務(wù)上的表現(xiàn)。
圖:微調(diào)對(duì)涌現(xiàn)能力的影響
- 涌現(xiàn)定律的建立:
- 通過(guò)微調(diào)不同數(shù)據(jù)量的LLM,研究人員建立了一個(gè)參數(shù)化函數(shù)(即“涌現(xiàn)定律”),該函數(shù)預(yù)測(cè)了涌現(xiàn)能力出現(xiàn)的點(diǎn)。這個(gè)定律可以用來(lái)外推預(yù)測(cè)在少樣本設(shè)置中涌現(xiàn)能力出現(xiàn)的點(diǎn)。
圖:通過(guò)微調(diào)預(yù)測(cè)涌現(xiàn)能力
實(shí)驗(yàn)過(guò)程及結(jié)果
實(shí)驗(yàn)設(shè)置
研究在四個(gè)標(biāo)準(zhǔn)NLP基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn):MMLU、GSM8K、CommonsenseQA和CoLA。這些基準(zhǔn)測(cè)試已經(jīng)被大規(guī)模開源LLM證明存在涌現(xiàn)現(xiàn)象。實(shí)驗(yàn)使用了不同規(guī)模的模型(3B、7B和13B)的中間檢查點(diǎn),并在這些模型上進(jìn)行了微調(diào)。
實(shí)驗(yàn)發(fā)現(xiàn)
- 微調(diào)對(duì)涌現(xiàn)點(diǎn)的影響:
- 通過(guò)微調(diào),模型在MMLU和GSM8K任務(wù)上的涌現(xiàn)點(diǎn)顯著提前。
- 微調(diào)數(shù)據(jù)量的增加會(huì)進(jìn)一步提前涌現(xiàn)點(diǎn)。
- 這些發(fā)現(xiàn)表明,微調(diào)可以系統(tǒng)性地將涌現(xiàn)點(diǎn)向能力較弱的模型轉(zhuǎn)移。
- 涌現(xiàn)預(yù)測(cè)模型:
- 研究開發(fā)了一個(gè)“涌現(xiàn)定律”,該模型描述了微調(diào)數(shù)據(jù)量與涌現(xiàn)點(diǎn)之間的關(guān)系。
- 通過(guò)擬合這個(gè)模型,可以預(yù)測(cè)在少樣本設(shè)置下的涌現(xiàn)點(diǎn)。
- 驗(yàn)證與評(píng)估:
- 在MMLU和GSM8K任務(wù)上,使用小規(guī)模LLM進(jìn)行擬合,成功預(yù)測(cè)了更大規(guī)模模型的涌現(xiàn)點(diǎn)。
- 在某些情況下,預(yù)測(cè)的準(zhǔn)確性非常高,誤差在0.1 nats以內(nèi)。
- 實(shí)際應(yīng)用案例:
- 評(píng)估預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量:通過(guò)比較OpenLLaMA V1和V2模型在MMLU任務(wù)上的涌現(xiàn)點(diǎn),發(fā)現(xiàn)V2模型涌現(xiàn)更早,表明V2的預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量更高。
- 預(yù)測(cè)未來(lái)LLM的能力:在更具挑戰(zhàn)性的APPS編碼基準(zhǔn)測(cè)試上,使用LLaMA 2模型進(jìn)行微調(diào),預(yù)測(cè)了未來(lái)模型在代碼生成任務(wù)上的涌現(xiàn)點(diǎn)。
實(shí)驗(yàn)結(jié)果圖示
- 左圖展示了微調(diào)后和少樣本設(shè)置下模型的性能;右圖展示了不同微調(diào)數(shù)據(jù)量對(duì)涌現(xiàn)點(diǎn)的影響。
- 展示了在各任務(wù)上的最大似然涌現(xiàn)預(yù)測(cè)。
- 展示了GSM8K和MMLU任務(wù)上涌現(xiàn)后驗(yàn)的累積分布函數(shù)(CDF)。
- 展示了不同設(shè)計(jì)決策對(duì)涌現(xiàn)預(yù)測(cè)準(zhǔn)確性的影響。
- 展示了在不同任務(wù)上提前預(yù)測(cè)涌現(xiàn)的能力。
- 比較了OpenLLaMA V1和V2模型在MMLU和CommonsenseQA任務(wù)上的涌現(xiàn)點(diǎn)。
- 展示了在MMLU任務(wù)上對(duì)OpenLLaMA V1和V2模型涌現(xiàn)點(diǎn)的預(yù)測(cè)。
- 展示了在APPS任務(wù)上使用LLaMA 2模型預(yù)測(cè)涌現(xiàn)點(diǎn)。
結(jié)論
研究通過(guò)微調(diào)LLM,成功預(yù)測(cè)了未來(lái)模型在多個(gè)任務(wù)上的涌現(xiàn)能力。實(shí)驗(yàn)結(jié)果表明,微調(diào)可以顯著提前涌現(xiàn)點(diǎn),并且通過(guò)擬合“涌現(xiàn)定律”,可以在少樣本設(shè)置下進(jìn)行準(zhǔn)確的預(yù)測(cè)。此外,研究還展示了如何利用這一方法評(píng)估預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量和預(yù)測(cè)未來(lái)LLM的復(fù)雜能力。 在現(xiàn)代大型語(yǔ)言模型(LLMs)的發(fā)展中,預(yù)測(cè)其涌現(xiàn)能力(emergent capabilities)是一個(gè)關(guān)鍵且未解的挑戰(zhàn)。本文由加州大學(xué)伯克利分校的研究團(tuán)隊(duì)提出了一種新穎的方法,通過(guò)微調(diào)(finetuning)來(lái)預(yù)測(cè)未來(lái)模型在特定任務(wù)上的涌現(xiàn)能力。研究的核心發(fā)現(xiàn)是,通過(guò)在特定任務(wù)上微調(diào)當(dāng)前的LLMs,可以顯著提前預(yù)測(cè)未來(lái)模型(如GPT-N+1)在該任務(wù)上的非平凡準(zhǔn)確性。這一發(fā)現(xiàn)不僅為模型開發(fā)者提供了寶貴的指導(dǎo),也為政策制定者和商業(yè)決策者提供了關(guān)于未來(lái)LLMs能力的可靠預(yù)測(cè)。
研究團(tuán)隊(duì)通過(guò)在四個(gè)標(biāo)準(zhǔn)NLP基準(zhǔn)測(cè)試(MMLU, GSM8K, CommonsenseQA, 和 CoLA)上的實(shí)驗(yàn)驗(yàn)證了這一方法的有效性。他們發(fā)現(xiàn),即使在只有小規(guī)模LLMs的情況下,也能準(zhǔn)確預(yù)測(cè)訓(xùn)練計(jì)算量增加四倍的未來(lái)模型是否會(huì)出現(xiàn)涌現(xiàn)能力。此外,研究還展示了兩個(gè)實(shí)際應(yīng)用案例:一是通過(guò)預(yù)測(cè)涌現(xiàn)能力來(lái)廉價(jià)評(píng)估預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量;二是預(yù)測(cè)更復(fù)雜任務(wù)的能力,這些任務(wù)可能僅在未來(lái)前沿模型中出現(xiàn)。
展望未來(lái),盡管本文提出的方法在預(yù)測(cè)涌現(xiàn)能力方面取得了顯著進(jìn)展,但仍有許多未解之謎和挑戰(zhàn)。例如,微調(diào)為何會(huì)導(dǎo)致涌現(xiàn)能力的提前出現(xiàn),這一機(jī)制尚不完全清楚。此外,不同架構(gòu)和訓(xùn)練方法的LLMs是否會(huì)在相同預(yù)訓(xùn)練損失下表現(xiàn)出相同的下游能力,也是一個(gè)需要進(jìn)一步研究的問(wèn)題。未來(lái)的研究可以探索更有效的數(shù)據(jù)選擇方法,深入理解微調(diào)與涌現(xiàn)能力之間的機(jī)制,以及評(píng)估在更廣泛應(yīng)用場(chǎng)景中該方法的適用性。
總之,本文為理解和預(yù)測(cè)大型語(yǔ)言模型的涌現(xiàn)能力開辟了新的道路,為未來(lái)的研究和應(yīng)用提供了豐富的啟示。鼓勵(lì)讀者常來(lái)公眾號(hào)學(xué)習(xí),與我們一同探索AI技術(shù)的無(wú)限可能。
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線 作者: 不是小馬哥啊
