模型融合、混合專家、更小的LLM,幾篇論文看懂2024年LLM發(fā)展方向
在過去的 2023 年中,大型語言模型(LLM)在潛力和復(fù)雜性方面都獲得了飛速的發(fā)展。展望 2024 年的開源和研究進(jìn)展,似乎我們即將進(jìn)入一個可喜的新階段:在不增大模型規(guī)模的前提下讓模型變得更好,甚至讓模型變得更小。
現(xiàn)在,2024 年的第一個月已經(jīng)過去,也許是時(shí)候盤點(diǎn)一番新年首月進(jìn)展了。近日,AI 研究者 Sebastian Raschka 發(fā)布了一份報(bào)告,介紹了四篇與上述新階段有關(guān)的重要論文。它們的研究主題簡單總結(jié)起來是這樣:
1. 權(quán)重平均和模型融合可將多個 LLM 組合成單個更好的模型,并且這個新模型還沒有傳統(tǒng)集成方法的典型缺陷,比如更高的資源需求。
2. 代理調(diào)優(yōu)(proxy-tuning)技術(shù)可通過使用兩個小型 LLM 來提升已有大型 LLM 的性能,這個過程無需改變大模型的權(quán)重。
3. 通過將多個小型模塊組合起來創(chuàng)建混合專家模型,可讓所得 LLM 的效果和效率媲美甚至超越更大型的對應(yīng)模型。
4. 預(yù)訓(xùn)練一個小型的 1.1B 參數(shù)的 LLM 可降低開發(fā)和運(yùn)營成本,并能為教育和研究應(yīng)用帶來新的可能性。
最后他總結(jié)了 1 月份的多篇有趣研究,以下是機(jī)器之心對原文不改變原義的編譯與整理。
1.WARM:On the Benefits of Weight Averaged Reward Models
論文地址:https://arxiv.org/abs/2401.12187
在這篇 1 月 22 日的論文《WARM: On the Benefits of Weight Averaged Reward Models》中,研究者提出了一種用于 LLM 獎勵模型的權(quán)重平均方法。這里的獎勵模型是指在用于對齊的 RLHF 中使用的獎勵模型。
何為權(quán)重平均?因?yàn)橛糜?LLM 的權(quán)重平均和模型融合可能會成為 2024 年最有趣的研究主題,在深入介紹這篇 WARM 論文之前,我們先來談?wù)勥@個主題。
了解模型融合和權(quán)重平均
模型融合和權(quán)重平均并不是新思想,但卻是目前最受矚目的方法。它成為了 Open LLM 排行榜上占據(jù)主導(dǎo)地位的技術(shù)。下面我們簡單討論一下這兩個概念。
權(quán)重平均和模型融合都是將多個模型或檢查點(diǎn)模型組合成單一實(shí)體。這有什么好處?類似于創(chuàng)建集成模型的概念,這種將多個模型組合成一個模型的思想可以提升訓(xùn)練的收斂、提升整體性能和提升穩(wěn)健性。需要強(qiáng)調(diào)的是,不同于傳統(tǒng)的集成方法,模型融合和權(quán)重平均會得到一個單一模型,而不是維護(hù)多個分立的模型,如下圖所示。
權(quán)重平均和模型融合(左)和多數(shù)投票(majority voting)等傳統(tǒng)集成方法(右)
傳統(tǒng)上講,權(quán)重平均涉及到將單個模型在訓(xùn)練過程中不同點(diǎn)的權(quán)重參數(shù)進(jìn)行平均。通常而言,這是在模型接近收斂的訓(xùn)練結(jié)束時(shí)完成的。這一技術(shù)的一種常見形式是隨機(jī)權(quán)重平均(SWA,Stochastic Weight Averaging)。這種方法是對一個初始較大的學(xué)習(xí)率進(jìn)行衰減,而權(quán)重則在學(xué)習(xí)率衰減期間(仍然相對較高)在多輪迭代上進(jìn)行平均。
隨機(jī)權(quán)重平均(SWA)是在訓(xùn)練周期快結(jié)束時(shí)對模型的權(quán)重進(jìn)行平均。
由于模型的訓(xùn)練軌跡可能并不均勻,因此其策略是在訓(xùn)練快結(jié)束時(shí)計(jì)算模型的平均,此時(shí)學(xué)習(xí)率較低,并且訓(xùn)練已接近收斂,如上圖所示。
另一種方法是指數(shù)移動平均(EMA,Exponentially Moving Average),其做法是通過指數(shù)級地降低舊狀態(tài)的權(quán)重來計(jì)算權(quán)重的一個平滑化版本。
2022 年,最新權(quán)重平均(LaWA,Latest Weight Averaging)表明,通過平均最新的 k 個檢查點(diǎn)的權(quán)重(每個權(quán)重都在 epoch 結(jié)束時(shí)獲取),可在損失和準(zhǔn)確度方面將訓(xùn)練過程加速多個 epoch。研究表明,這種技術(shù)能有效地用于 ResNet 視覺模型和 RoBERTa 語言模型。
然后到了 2023 年,論文《Early Weight Averaging Meets High Learning Rates for LLM Pre-training》探索了 LaWA 的一個修改版,其使用了更高的學(xué)習(xí)率,并且在訓(xùn)練期間會更早地在平均檢查點(diǎn)中開始。其研究者發(fā)現(xiàn),這種方法能顯著提升標(biāo)準(zhǔn) SWA 和 EMA 方法的性能。
來自論文《Early Weight Averaging meets High Learning Rates for LLM Pre-training》的修改版 LaWA,論文地址:https://arxiv.org/abs/2306.03241
權(quán)重平均的做法是將同一模型的多個檢查點(diǎn)組合成單個模型,而模型融合則是將多個不同的已訓(xùn)練模型組合成單個模型。這些模型中的每一個都可能是獨(dú)立訓(xùn)練的,并且可能基于不同的數(shù)據(jù)集或任務(wù)。
模型融合已有較長的歷史,但最近一篇頗具影響力的 LLM 相關(guān)論文是《Model Ratatouille:Recycling Diverse Models for Out-of-Distribution Generalization》。(論文地址:https://arxiv.org/abs/2212.10445)
Model Ratatouille 背后的思想是復(fù)用多個同一基礎(chǔ)模型在不同的多樣性輔助任務(wù)上微調(diào)過的迭代版本,如下圖所示。
通過 Model Ratatouille 實(shí)現(xiàn)模型融合,并且對比了其它微調(diào)策略,(OOD = 分布外 / 泛化)
細(xì)致來說,Model Ratatouille 方法可以總結(jié)成下圖。
用于模型融合的 Model Ratatouille 方法
請注意,這樣的整體思路也可用于 LoRA 適應(yīng)器,如論文《LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition》展現(xiàn)的那樣。(論文地址:https://arxiv.org/abs/2307.13269)
使用了權(quán)重平均的獎勵模型
討論完了權(quán)重平均和模型融合,下面我們回到近期新發(fā)布的論文《WARM:On the Benefits of Weight Averaged Reward Models》。
這項(xiàng)研究的主要目的是提升用于 LLM 的 RLHF 對齊步驟。具體來說,研究者希望通過平均微調(diào)后的獎勵模型的權(quán)重來緩解 LLM 中的獎勵駭入(reward hacking)問題。
獎勵駭入是指 LLM 學(xué)會了操控或利用其獎勵系統(tǒng)的漏洞來獲得高分或獎勵,而不是真正完成預(yù)期任務(wù)或?qū)崿F(xiàn)基本目標(biāo)。
權(quán)重平均能讓獎勵建模更為穩(wěn)健地應(yīng)對獎勵駭入問題
為了解決獎勵駭入問題,WARM 論文提出通過權(quán)重平均將 LLM 獎勵模型組合到一起。相比于單個獎勵模型,通過這個過程得到的融合版獎勵模型獲得了 79.4% 的勝率。
WARM 是如何發(fā)揮作用的?方法其實(shí)相當(dāng)簡單:類似于隨機(jī)權(quán)重平均,WARM 會對多個模型(這里是獎勵模型)的權(quán)重進(jìn)行平均,如下圖所示。
WARM 在 RLHF 過程中的使用方式概況。這里唯一的新東西是該方法使用了來自權(quán)重平均的獎勵模型,而不是訓(xùn)練單個獎勵模型。
在此之前,我們已經(jīng)討論了一些權(quán)重平均方法。那么 WARM 是如何對權(quán)重執(zhí)行平均以獲得獎勵模型呢?這里,和隨機(jī)權(quán)重平均一樣,他們使用了一種簡單的線性平均。不過它們也有差別:其模型并不是采樣于同一軌跡,而是基于預(yù)訓(xùn)練模型獨(dú)立創(chuàng)建的,這一點(diǎn)和 Model Ratatouille 類似。另外,WARM 還使用了所謂的 Baklava 流程,可以沿微調(diào)軌跡進(jìn)行采樣。下圖比較了這些差異。
不同的模型融合和平均方法之間的比較
按照上述 WARM 流程并且平均了 10 個獎勵模型后,這些研究者發(fā)現(xiàn)了一種強(qiáng)化學(xué)習(xí)策略 —— 使用此策略,WARM 相對于單獎勵模型的勝率為 79.4%,如下圖所示。
在第 3000 步時(shí),WARM 的表現(xiàn)超過了最佳的單獎勵模型方法
總結(jié)
模型融合并不是一種新技術(shù),但在 LLM 領(lǐng)域卻是比較新的;考慮到 LLM 的高成本和資源需求,其就尤顯潛力了。因此,利用多個在訓(xùn)練期間創(chuàng)建的已有 LLM(不做其它處理)的方法就尤其具有吸引力。另外,相對于傳統(tǒng)的集成方法(需要同時(shí)運(yùn)行多個模型),經(jīng)過權(quán)重平均得到的模型相對輕量,在推理時(shí)間的成本并不會超過單個模型。
展望未來,我認(rèn)為 LLM 模型融合技術(shù)前景廣闊。我也預(yù)計(jì)未來會出現(xiàn)更多創(chuàng)新性的模型融合方式。
2.Tuning Language Models by Proxy
論文地址:https://arxiv.org/abs/2401.08565
論文《Tuning Language Models by Proxy》提出了一種可用于提升 LLM 的技術(shù):proxy-tuning。這里我們將其譯為「代理調(diào)優(yōu)」。這種方法可以在某種程度上不改變權(quán)重的前提下微調(diào) LLM。
代理調(diào)優(yōu)是通過調(diào)整目標(biāo) LLM 的 logit 來實(shí)現(xiàn)的,這是解碼階段中一個非常簡單的過程。具體來說,它需要計(jì)算一個較小基礎(chǔ)模型和一個已微調(diào)模型之間的 logit 之差。然后再將這個差添加到目標(biāo)模型的 logit。Logit 是指模型最終層生成的原始輸出值。這些 logit 表示 LLM 的每個可能的輸出 token 的非歸一化分?jǐn)?shù),之后這些分?jǐn)?shù)會通過 softmax 等函數(shù)轉(zhuǎn)換成概率。
代理調(diào)優(yōu)圖示
為了更清晰地說明這一概念,我們可以假設(shè)我們想要提升大型目標(biāo)模型 M1(比如 Llama 2 70B)的目標(biāo)函數(shù)結(jié)果。該過程涉及兩個較小的模型:一個小型基礎(chǔ)模型(M2),比如 Llama 2 7B;一個經(jīng)過微調(diào)的基礎(chǔ)模型(M3),比如 Llama 2 7B Chat。
那么如何實(shí)現(xiàn)我們想要的增強(qiáng)呢?其實(shí)就是將這些較小模型的預(yù)測結(jié)果(logit)之差用于目標(biāo)模型 M1。提升后的目標(biāo)模型 M1* 的輸出 logit 是這樣計(jì)算的:M1*(x) = M1 (x) + [M3 (x) - M2 (x)]。在得到了這些輸出 logit 之后,再使用 softmax 函數(shù)將它們轉(zhuǎn)換成概率。然后再使用這些概率來采樣得到最終輸出結(jié)果,也就是生成的文本;這個過程可以使用核采樣或 top-k 解碼等技術(shù)。
代理調(diào)優(yōu)的實(shí)踐效果如何?
他們的實(shí)驗(yàn)得到了讓人印象深刻的積極結(jié)果。這些研究者在三個不同場景中實(shí)驗(yàn)了這種方法:
1. 指令微調(diào):提升 Llama 2 70B 基礎(chǔ)模型,使之能比肩 Llama 2 70B Chat 模型。
2. 領(lǐng)域適應(yīng):提升 Llama 2 70B 基礎(chǔ)模型的代碼能力,目標(biāo)是達(dá)到 CodeLlama 70B 的代碼水平。
3. 針對特定任務(wù)進(jìn)行微調(diào):提升 Llama 2 70B 基礎(chǔ)模型執(zhí)行特定任務(wù)的能力,比如 TriviaQA 或數(shù)學(xué)問題。
可以觀察到,在每種場景中,相較于原始基礎(chǔ)模型,新方法都能帶來顯著提升。舉個例子,下表重點(diǎn)對比了 Llama 70B Base 和 Chat 模型。但是,這篇論文還為 CodeLlama 提供了額外的基準(zhǔn)。
來自代理調(diào)優(yōu)論文的結(jié)果圖表
可以看到,根據(jù)上圖所示的基準(zhǔn)結(jié)果,經(jīng)過代理調(diào)優(yōu)的 70B Llama 2 模型的表現(xiàn)優(yōu)于 70B 基礎(chǔ)模型,并且?guī)缀跄苕敲乐苯游⒄{(diào)的 Llama 70B Chat 模型。
實(shí)踐方面的考慮
這種方法可以用于提升研發(fā)效率:開發(fā)新的訓(xùn)練或模型提升方法并在較小模型上測試它們以降低成本。然后,再擴(kuò)展這些方法,使之可用于提升更大型的基礎(chǔ)模型,同時(shí)無需訓(xùn)練大模型。
但是,如果要在真實(shí)世界中實(shí)際使用這些方法,仍然需要用到三種不同的模型:
1. 一個大型通用基礎(chǔ)模型
2. 一個較小的通用模型
3. 一些針對特定用例或客戶需求定制化的小型專用模型
因此,我們?yōu)槭裁催€要選擇這種方法呢,畢竟已經(jīng)有 LoRA(低秩適應(yīng))這種更好的方法了 ——LoRA 不需要較小的通用模型 ,也可以使用一組小型 LoRA 矩陣替代多個小型專用模型 。
這里就需要說明代理調(diào)優(yōu)方法的兩個潛在優(yōu)勢:
- 在某些場景中,代理調(diào)優(yōu)的表現(xiàn)可能優(yōu)于 LoRA,盡管還沒人對它們直接進(jìn)行比較。
- 當(dāng)大型基礎(chǔ)模型是「黑箱」時(shí),也就是內(nèi)部權(quán)重不可用時(shí),這種方法也可用。
但是,問題也依然存在:較小模型必須與大型目標(biāo)模型有一樣的詞表。(理論上講,如果有人知道 GPT-4 的詞表并且可以訪問其 logit 輸出,他們就可以使用此方法創(chuàng)建專用型的 GPT-4 模型。)
3.Mixtral of Experts
論文地址:https://arxiv.org/abs/2401.04088
Mixtral 8x7B 論文終于來了?。C(jī)器之心也在該論文發(fā)布時(shí)第一時(shí)間進(jìn)行了報(bào)道,參閱《Mixtral 8x7B 論文終于來了:架構(gòu)細(xì)節(jié)、參數(shù)量首次曝光》)Mixtral 8x7B 是一種稀疏的混合專家(稀疏 MoE)模型,目前是性能最佳的大型語言模型(LLM)之一,同時(shí)也是最受人關(guān)注的一種公開可用的 LLM。根據(jù)原論文,該模型的代碼庫基于 Apache 2 許可證發(fā)布,可以免費(fèi)用于學(xué)術(shù)和商業(yè)目的。
MoE 是什么?MoE 是混合專家(Mixture of Experts)的縮寫,這是一類將多個較小「專家」子網(wǎng)絡(luò)組合起來得到的集成模型。每個子網(wǎng)絡(luò)都負(fù)責(zé)處理不同類型的任務(wù)。通過使用多個較小的子網(wǎng)絡(luò),而不是一個大型網(wǎng)絡(luò),MoE 可以更高效地分配計(jì)算資源。這讓它們可以更有效地?cái)U(kuò)展,并可望在更廣泛的任務(wù)上實(shí)現(xiàn)更好的性能。
在下面將討論的論文《Mixtral of Experts》中,研究者討論了構(gòu)建 Mixtral 8x7B 的方法。這個模型的表現(xiàn)能比肩大得多的 Llama 2 70B 模型。
Mixtral 8x7B 能在許多基準(zhǔn)上比肩甚至超越大得多的 Llama 2 70B 模型
Mixtral 架構(gòu)
Mixtral 8x7B 的關(guān)鍵思想是用 8 個專家層替換 Transformer 架構(gòu)中的每個前饋模塊,如下圖所示。
Transformer 架構(gòu),來自論文《Attention Is All You Need》
前饋模塊本質(zhì)上就是一個多層感知器。使用類似 PyTorch 的偽代碼,看起來就會是這樣:
此外,還有一個路由模塊,其作用是將每個 token 嵌入重定向到 8 個專家前饋模塊。然后再將這 8 個專家前饋層的輸出求和匯總,如下圖所示。
論文《Mixtral of Experts》中對 MoE 模塊的解釋
如果用數(shù)學(xué)表示,當(dāng)有 8 個專家 {E_1, E_2, ..., E_8})時(shí),則可以寫成如下形式:
這里,G 表示路由(即門控網(wǎng)絡(luò)),E_i 表示專家模塊的輸出。根據(jù)上面的公式,MoE 層會計(jì)算專家輸出 E_i 的加權(quán)和,其中權(quán)重是由門控網(wǎng)絡(luò) G (x)_i 為每個輸入 x 提供的。
乍一看,Mixtral 似乎只是通過這些專家(前饋)模塊為 LLM 添加額外的參數(shù),以表示一種加權(quán)集成方法。但其實(shí)它還有另一種調(diào)整:Mixtral 是一種稀疏 MoE,這就意味著每個輸入只會使用這些專家中的一部分:
在 Mixtral 8x7B 這個特例中,作者設(shè)定了 TopK=2,也就是一次僅使用 2 個專家。因此,根據(jù)上式,G (x) 的輸出可能看起來是這樣的:[0, 0, 0.63, 0, 0, 0.37, 0, 0]。這表示第三個專家為輸出貢獻(xiàn)了 63%,而第六個專家則貢獻(xiàn)了 37%。
模型大小
Mixtral 8x7B 如何得名的?稀疏 MoE 模型的實(shí)際大小如何?8x 是指使用了 8 個專家子網(wǎng)絡(luò)。7B 是指其組合了 Mistral 7B 模塊。但是,需要重點(diǎn)指出:Mixtral 的大小并不是 8x7B = 56B。7B 參數(shù)表示 Mistral 7B 模型的整體參數(shù)規(guī)模,而在 Mixtral 8x7B 中,專家層僅替換了前饋層而已。
總體而言,Mixtral 8x7B 有 47B 參數(shù)。這意味著 Mistral 7B 模型有 9B 個非前饋參數(shù);有趣的是,LLM 中的大多數(shù)參數(shù)都包含在前饋模塊中,而不是注意力機(jī)制中。
Mixtral 8x7B 總共有 47B 參數(shù),明顯少于 Llama 2 70B 等模型。此外,由于每個時(shí)間步驟僅有 2 個專家處于活動狀態(tài),因此對于每個輸入 token,該模型僅使用 13B 參數(shù)。如此一來,它的效率就比常規(guī)的非 MoE 47B 參數(shù)模型高多了。
來自論文《Mixtral of Experts》
讓專家專業(yè)化
有趣的問題來了:這些專家能否展現(xiàn)出任何特定于任務(wù)或 token 的模式?不幸的是,作者沒能觀察到特定于具體主題的專業(yè)性,如 GitHub、Arxiv、Mathematics、Wikipedia 等數(shù)據(jù)集。
但是,作者卻觀察到了一個有趣的現(xiàn)象:文本數(shù)據(jù)集中的連續(xù) token 通常會被分配給同樣的專家。此外,Python 代碼中的縮進(jìn) token 經(jīng)常被分配給同一專家,如下圖所示。
來自論文《Mixtral of Experts》
(作者并未說明每個 token 的兩個專家中哪個被標(biāo)記了顏色,但我猜想他們總是標(biāo)記權(quán)重更高的專家。)
總結(jié)
Mixtral 8x7B 有幾個優(yōu)點(diǎn):公開可用、可比肩甚至超越 Llama 2 70B 等更大模型、以一種較新穎的方式使用稀疏 MoE 模塊來構(gòu)建 LLM。
它性能強(qiáng)大,參數(shù)效率高并且有能力處理長達(dá) 32k 的上下文窗口,因此很可能在可預(yù)見的未來(或至少在未來幾個月)里成為一大頗具吸引力的模型。我相信 MoE 模型也會成為 2024 年大多數(shù)開源項(xiàng)目的一個重點(diǎn)關(guān)注領(lǐng)域,因此《Mixtral of Experts》值得關(guān)注。
但這篇論文也有個小問題:作者并未分享訓(xùn)練數(shù)據(jù)集的有關(guān)信息。但也可以理解,因?yàn)檫@樣可以避免潛在的版權(quán)爭議。
另外,如果作者能基于同一數(shù)據(jù)集比較一下 Mixtral 8x7B 和 Llama 2 70B 就更好了;但這類研究的成本很高。還有,我也想看看 Mixtral 8x7B 與以下兩種假定的模型相比如何,因?yàn)檫@樣可以直接對比 MoE 與非 MoE 方法的效果:
?Mistral 56B(更大的非 MoE 模型)
?Mistral 47B(與 Mixtral 8x7B 參數(shù)數(shù)量一樣的非 MoE 模型)
還有一個有趣的事實(shí):Brave 瀏覽器的 Leo 助理功能現(xiàn)在使用 Mixtral 8x7B 作為默認(rèn) LLM。)
4.TinyLlama:An Open-Source Small Language Model
論文地址:https://arxiv.org/abs/2401.02385
微軟的 phi-2 在去年 12 月引起了不少關(guān)注,之后 TinyLlama 就成了小型 LLM 類別的新晉成員。TinyLlama 不僅小,僅有 1.1B 參數(shù),而且還完全開源。這里,「開源」是指通過一個不受限的開源軟件庫提供訓(xùn)練代碼和檢查點(diǎn)模型。你可以訪問其 GitHub 代碼庫:https://github.com/jzhang38/TinyLlama
小型 LLM(也常寫成 SLM,即小型語言模型)為何如此吸引人?因?yàn)樾⌒?LLM:
- 容易獲取且成本低,這就意味著可以在資源有限的計(jì)算設(shè)備(比如筆記本電腦和 / 或小型 GPU)上運(yùn)行它們。
- 開發(fā)和預(yù)訓(xùn)練成本更低 —— 這些模型僅需要相對少量的 GPU。
- 更容易針對目標(biāo)任務(wù)定制化 —— 小模型通??梢詢H在單個 GPU 上完成微調(diào)。
- 能效更高 —— 考慮到訓(xùn)練和運(yùn)行大規(guī)模 AI 模型對環(huán)境的影響,這也是一個重點(diǎn)考慮因素。另一個考慮方面是在智能手機(jī)等便攜式設(shè)備上部署 LLM 時(shí)的電池壽命問題。
- 對教育方面的應(yīng)用很有價(jià)值 —— 小型 LLM 更容易掌控,因此更容易理解和調(diào)整。
TinyLlama 的性能
TinyLlama 的優(yōu)勢不僅是小和開源,而且在常識推理和問題求解基準(zhǔn)上的表現(xiàn)也相當(dāng)不錯,勝過其它同等大小的開源模型。
TinyLlama 的性能表現(xiàn)
當(dāng)然,TinyLlama 在這些基準(zhǔn)上比不上更大型的模型,但由于它的所有代碼都已開源,因此任何人都可以進(jìn)一步研究和微調(diào)它。
TinyLlama 帶來的想法
舉個例子,從作者的訓(xùn)練過程可以得到一個頗具教育意義的有趣見解:在 1 萬億 token 上訓(xùn)練該模型 3 epoch(而不是 1 epoch)實(shí)際上是有用的,盡管這有違 Chinchilla 的縮放率。這些縮放率認(rèn)為對于這樣的模型大小,應(yīng)該使用小得多的數(shù)據(jù)集。
來自論文《Training Compute-Optimal Large Language Models》
舉個例子,如下圖表所示,即使訓(xùn)練了多個 epoch,使用的數(shù)據(jù)都已重復(fù),模型依然會繼續(xù)提升。
來自 TinyLlama 論文的圖表,并且在其它 6 個基準(zhǔn)上也有類似的趨勢
研究在「過大」數(shù)據(jù)集上的行為或訓(xùn)練多個 epoch 的行為時(shí),如果使用很大的模型,就會很困難。未來在 TinyLlama 上的微調(diào)實(shí)驗(yàn)可能還能得到一些有趣結(jié)果,值得期待。(早期實(shí)驗(yàn)表明,該模型目前落后于小型的 phi-2 模型,但其實(shí) phi-2 模型依然比 TinyLlama 大 3 倍。
一月份其它有趣的研究論文
下面是一月份我看到的其它一些有趣論文。受限于篇幅,下面會用星號★標(biāo)記我認(rèn)為尤其有趣的論文。
- 論文標(biāo)題:KVQuant:Towards 10 Million Context Length LLM Inference with KV Cache Quantization
- 論文地址:https://arxiv.org/abs/2401.18079
研究者提出了一種量化鍵 - 值緩存激活的方法,該方法可盡可能緩解困惑度指標(biāo)劣化問題,并能在單個 A100 (80GB) GPU 上運(yùn)行 Llama-7B 等模型同時(shí)還支持高達(dá) 100 萬的上下文長度。
- 論文標(biāo)題:Rephrasing the Web:A Recipe for Compute and Data-Efficient Language Modeling
- 論文地址:https://arxiv.org/abs/2401.16380
作者提出使用經(jīng)過闡釋的網(wǎng)絡(luò)文檔來更高效地訓(xùn)練大型語言模型,這能在多種任務(wù)上實(shí)現(xiàn)更快的預(yù)訓(xùn)練,獲得更優(yōu)的性能,并能讓我們更好地理解訓(xùn)練數(shù)據(jù)的組成結(jié)構(gòu)對分布外性能的影響。
- 論文標(biāo)題:MoE-LLaVA:Mixture of Experts for Large Vision-Language Models
- 論文地址:https://arxiv.org/abs/2401.15947
該論文提出了一種用于擴(kuò)展大型視覺 - 語言模型的混合專家范式,能用更少的參數(shù)實(shí)現(xiàn)比肩更大模型的性能。
- 論文標(biāo)題:EAGLE:Speculative Sampling Requires Rethinking Feature Uncertainty
- 論文地址:https://arxiv.org/abs/2401.15077
EAGLE 能加速 LLM 中的自回歸解碼,其方法是在次要的特征層級上進(jìn)行處理,并整合未來的 token。
- 論文標(biāo)題:Multimodal Pathway:Improve Transformers with Irrelevant Data from Other Modalities
- 論文地址:https://arxiv.org/abs/2401.14405
這篇論文提出了 Multimodal Pathway(多模態(tài)通路)。該技術(shù)可以使用未配對的模態(tài)數(shù)據(jù)(比如音頻)提升視覺 Transformer 在另一特定模態(tài)(比如圖像)上的性能,其在多種圖像識別任務(wù)上都取得了顯著的性能提升。
- 論文標(biāo)題:Pix2gestalt:Amodal Segmentation by Synthesizing Wholes
- 論文地址:https://arxiv.org/abs/2401.14398
Pix2gestalt 是一種用于零樣本非模態(tài)圖像分割的框架,其利用了擴(kuò)散模型和一個精心合成的數(shù)據(jù)集來估計(jì)部分遮擋目標(biāo)的形狀和外觀。
- 論文標(biāo)題:Rethinking Patch Dependence for Masked Autoencoders
- 論文地址:https://arxiv.org/abs/2401.14391
交叉注意力掩碼式自動編碼器是一種新式預(yù)訓(xùn)練框架,它僅使用掩蔽 token 和可見 token 之間的交叉注意力來重建被遮掩的圖塊,其效率和質(zhì)量都勝過傳統(tǒng)的掩碼式自動編碼器。
- 論文標(biāo)題:SpacTor-T5:Pre-training T5 Models with Span Corruption and Replaced Token Detection
- 論文地址:https://arxiv.org/abs/2401.13160
這篇論文提出了 SPACTOR,這是一種用于訓(xùn)練 LLM 的方法,其將 span 損壞和 token 替換檢測組合成了一個兩階段課程;其靠少 50% 的預(yù)訓(xùn)練迭代次數(shù)和少 40% 的計(jì)算成本實(shí)現(xiàn)了與標(biāo)準(zhǔn)方法一樣的性能。
- 論文標(biāo)題:MambaByte:Token-free Selective State Space Model
- 論文地址:https://arxiv.org/abs/2401.13660
MambaByte 是一種無 token 語言 Mamba 選擇性狀態(tài)空間模型,其直接操作原始字節(jié),可避免子詞 token 化偏差。
- 論文標(biāo)題:Spotting LLMs With Binoculars:Zero-Shot Detection of Machine-Generated Text
- 論文地址:https://arxiv.org/abs/2401.12070
Binoculars 這種新方法可以不使用訓(xùn)練數(shù)據(jù)來更準(zhǔn)確地檢測 LLM 生成的文本,其方法是通過簡單的計(jì)算來對比兩個預(yù)訓(xùn)練的 LLM。
- 論文標(biāo)題:WARM:On the Benefits of Weight Averaged Reward Models
- 論文地址:https://arxiv.org/abs/2401.12187
這項(xiàng)研究解決了與人類偏好對齊的 LLM 中的獎勵崩潰問題,其方法是通過平均微調(diào)后的獎勵模型權(quán)重來執(zhí)行強(qiáng)化學(xué)習(xí)。
- 論文標(biāo)題:SpatialVLM:Endowing Vision-Language Models with Spatial Reasoning Capabilities
- 論文地址:https://arxiv.org/abs/2401.12168
這項(xiàng)研究可提升視覺 - 語言模型(VLM)的 3D 空間推理能力 —— 作者開發(fā)了一個互聯(lián)網(wǎng)規(guī)模的空間推理數(shù)據(jù)集并基于其訓(xùn)練了一個 VLM。
- 論文標(biāo)題:Knowledge Fusion of Large Language Models
- 論文地址:https://arxiv.org/abs/2401.10491
研究者提出了一種知識融合方法,可將多個不同 LLM 組合成一個統(tǒng)一模型,其性能優(yōu)于單個模型、傳統(tǒng)集成方法和其它模型融合方法。
- 論文標(biāo)題:VMamba:Visual State Space Model
- 論文地址:https://arxiv.org/abs/2401.10166
這項(xiàng)研究將視覺 Transformer 的全局感受野和動態(tài)權(quán)重與 CNN 的線性復(fù)雜性組合起來,得到了一個名為 VMamba 的新架構(gòu),該架構(gòu)在更高的圖像分辨率上表現(xiàn)尤其出色。
- 論文標(biāo)題:Self-Rewarding Language Models
- 論文地址:https://arxiv.org/abs/2401.10020
使用 LLM 作為評判員(LLM-as-a-Judge)的方法在訓(xùn)練期間執(zhí)行自我獎勵,可以提升 LLM 遵循指令和建模獎勵的能力;這表明,除了基于人類偏好進(jìn)行的常規(guī)訓(xùn)練,還有可能讓模型持續(xù)進(jìn)行自我提升。
- 論文標(biāo)題:DiffusionGPT:LLM-Driven Text-to-Image Generation System
- 論文地址:https://arxiv.org/abs/2401.10061
DiffusionGPT 是一種文本到圖像生成框架,其使用 LLM 解析不同的 prompt,并可從一個思維樹(Tree-of-Thought)結(jié)構(gòu)(同樣也整合了人類反饋)中選擇最合適的生成模型。
- 論文標(biāo)題:ReFT:Reasoning with Reinforced Fine-Tuning
- 論文地址:https://arxiv.org/abs/2401.08967
這篇論文提出了 Reinforced FineTuning (ReFT,強(qiáng)化微調(diào))技術(shù),可提升大型語言模型在數(shù)學(xué)問題求解等任務(wù)上的推理能力。其做法是將監(jiān)督式微調(diào)與強(qiáng)化學(xué)習(xí)組合起來使用,可在不使用額外訓(xùn)練數(shù)據(jù)的前提下取得優(yōu)于標(biāo)準(zhǔn)微調(diào)的結(jié)果。
- 論文標(biāo)題:RAG vs Fine-tuning:Pipelines, Tradeoffs, and a Case Study on Agriculture
- 論文地址:https://arxiv.org/abs/2401.08406
盡管 RAG(檢索增強(qiáng)式生成)和微調(diào)誰更勝一籌的爭論一直存在,但這篇論文卻表明可將 RAG 和微調(diào)組合起來,提升累積準(zhǔn)確度(背景是農(nóng)業(yè)應(yīng)用)。
- 論文標(biāo)題:Code Generation with AlphaCodium:From Prompt Engineering to Flow Engineering
- 論文地址:https://arxiv.org/abs/2401.08500
AlphaCodium 是一種迭代式的、基于測試的方法,可用于 LLM 的代碼生成任務(wù),其可憑借更低的計(jì)算負(fù)載超過之前的方法。
- 論文標(biāo)題:Scalable Pre-training of Large Autoregressive Image Models
- 論文地址:https://arxiv.org/abs/2401.08541
受 LLM 預(yù)訓(xùn)練的啟發(fā),該論文研究了以自回歸方式(無監(jiān)督)來預(yù)訓(xùn)練視覺模型。結(jié)果證明模型性能會隨模型大小和數(shù)據(jù)量擴(kuò)展,并且其在 ImageNet-1k 上取得了亮眼的結(jié)果(而且還未飽和)。
- 論文標(biāo)題:Tuning Language Models by Proxy
- 論文地址:https://arxiv.org/abs/2401.08565
在適應(yīng)大型語言模型方面,代理調(diào)優(yōu)是一種能高效利用資源的方法。其做法是使用一個較小的已微調(diào)模型來修改其預(yù)測結(jié)果。該方法在實(shí)驗(yàn)中表現(xiàn)接近直接微調(diào)方法,甚至在專有模型上也是如此。
- 論文標(biāo)題:An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models
- 論文地址:https://arxiv.org/abs/2401.06692
使用 LLM 的監(jiān)督式微調(diào)中的實(shí)驗(yàn)設(shè)計(jì)技術(shù)(選取信息量最大的樣本進(jìn)行標(biāo)注以最大化效率),研究者將標(biāo)注成本降低了 50%(相比于隨機(jī)采樣)。
- 論文標(biāo)題:A Closer Look at AUROC and AUPRC under Class Imbalance
- 論文地址:https://arxiv.org/abs/2401.06091
這篇論文挑戰(zhàn)了機(jī)器學(xué)習(xí)領(lǐng)域一個廣被認(rèn)可的信念:對于類別不平衡的二元分類問題,精度召回曲線下面積(AUPRC)優(yōu)于接收者操作特征下面積(AUROC)。
- 論文標(biāo)題:The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
- 論文地址:https://arxiv.org/abs/2401.06751
作者發(fā)現(xiàn),模型通常能夠很好地從簡單數(shù)據(jù)泛化到困難數(shù)據(jù)。他們指出在更簡單數(shù)據(jù)上進(jìn)行訓(xùn)練會更高效。他們使用多達(dá) 700 億參數(shù)的模型在多個問答數(shù)據(jù)集上實(shí)驗(yàn)驗(yàn)證了這一點(diǎn)。
- 論文標(biāo)題:Sleeper Agents:Training Deceptive LLMs that Persist Through Safety Training
- 論文地址:https://arxiv.org/abs/2401.05566
這項(xiàng)研究調(diào)查了 LLM 學(xué)習(xí)欺騙行為的可能性,并發(fā)現(xiàn)標(biāo)準(zhǔn)的安全訓(xùn)練技術(shù)無法有效地移除這些持續(xù)存在的欺騙性策略。
- 論文標(biāo)題:Transformers are Multi-State RNNs
- 論文地址:https://arxiv.org/abs/2401.06104
這項(xiàng)研究表明,最初被認(rèn)為與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同的僅解碼器 Transformer 可被視為具有無限隱藏狀態(tài)大小的無限多狀態(tài) RNN。
- 論文標(biāo)題:RoSA:Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation
- 論文地址:https://arxiv.org/abs/2401.04679
這項(xiàng)研究提出了一種新的用于 LLM 的參數(shù)高效型微調(diào)方法 RoSA。其做法是在固定的預(yù)訓(xùn)練權(quán)重上訓(xùn)練低秩和高度稀疏的組件,這樣得到的效果優(yōu)于 LoRA 等現(xiàn)有方法。
- 論文標(biāo)題:A Minimaximalist Approach to Reinforcement Learning from Human Feedback
- 論文地址:https://arxiv.org/abs/2401.04056
該論文提出了自我對弈偏好優(yōu)化(SPO),這是一種簡單卻有效的強(qiáng)化學(xué)習(xí)算法,可替代 RLHF 但不需要獎勵模型。
- 論文標(biāo)題:MoE-Mamba:Efficient Selective State Space Models with Mixture of Experts
- 論文地址:https://arxiv.org/abs/2401.04081
該論文提出將 Mamba 等狀態(tài)空間模型與混合專家(MoE)組合起來,這樣得到的 MoE-Mamba 模型在效率和有效性上既優(yōu)于標(biāo)準(zhǔn)的 Mamba 結(jié)構(gòu)的狀態(tài)空間模型,也勝過一個 Transformer-MoE 基準(zhǔn)模型。
- 論文標(biāo)題:Soaring from 4K to 400K:Extending LLM’s Context with Activation Beacon
- 論文地址:https://arxiv.org/abs/2401.03462
研究者提出通過激活信標(biāo)(activation beacon)來擴(kuò)展 LLM 的上下文窗口。所謂的激活信標(biāo)是指添加到輸入上下文中的激活的壓縮狀態(tài)。
- 論文標(biāo)題:Denoising Vision Transformers
- 論文地址:https://arxiv.org/abs/2401.02957
作者發(fā)現(xiàn),視覺 Transformer(ViT)中常見的網(wǎng)格狀偽影是由輸入階段的位置嵌入造成的。他們提出了一種去噪視覺 Transformer,可從現(xiàn)有 ViT 提取出凈化后的特征。
- 論文標(biāo)題:DeepSeek LLM:Scaling Open-Source Language Models with Longtermism
- 論文地址:https://arxiv.org/abs/2401.02954
DeepSeek LLM 有 7B 和 67B 兩種配置,其訓(xùn)練使用了一個 2 萬億 token 的數(shù)據(jù)集。該研究優(yōu)化了 Chinchilla 縮放率并且表現(xiàn)優(yōu)于 LLaMA-2 70B 和 GPT-3.5 等模型。
- 論文標(biāo)題:Blending Is All You Need:Cheaper, Better Alternative to Trillion-Parameters LLM
- 論文地址:https://arxiv.org/abs/2401.02994
這篇論文提出了 Blending。該方法可從多個更小的聊天 AI 模型隨機(jī)選取響應(yīng)。結(jié)果表明組合使用中等大小的模型(6B/13B)可以達(dá)到或超過 ChatGPT(參數(shù)超過 175B)等更大型模型的表現(xiàn)。
- 論文標(biāo)題:LLM Augmented LLMs:Expanding Capabilities through Composition
- 論文地址:https://arxiv.org/abs/2401.02412
CALM(增強(qiáng)語言模型的組合方法)是將礎(chǔ) LLM 和專業(yè) LLM 組合到一起,其使用了交叉注意力來提升在新任務(wù)上的表現(xiàn)(比如資源很少的語言的翻譯和代碼生成任務(wù)),這個過程僅需極少量的額外參數(shù)和數(shù)據(jù)。
- 論文標(biāo)題:LLaMA Pro:Progressive LLaMA with Block Expansion
- 論文地址:https://arxiv.org/abs/2401.02415
該論文提出了一種用于 LLM 的后預(yù)訓(xùn)練方法,將 Llama 7B 轉(zhuǎn)變?yōu)?Llama Pro-8.3B。該方法可擴(kuò)展 Transformer 模塊,以提升其在編程和數(shù)學(xué)等領(lǐng)域的表現(xiàn),同時(shí)還不會忘記以前的知識。
- 論文標(biāo)題:A Mechanistic Understanding of Alignment Algorithms:A Case Study on DPO and Toxicity
- 論文地址:https://arxiv.org/abs/2401.01967
該研究探索了直接偏好優(yōu)化(DPO)算法如何通過降低有害性來將 GPT2-medium 等預(yù)訓(xùn)練模型與用戶偏好對齊,其中揭示出它會繞過而不是移除預(yù)訓(xùn)練功能。該研究還給出了一種將模型恢復(fù)到其原始有毒行為的方法。
- 論文標(biāo)題:LLaMA Beyond English:An Empirical Study on Language Capability Transfer
- 論文地址:https://arxiv.org/abs/2401.01055
該論文探究了如何將 Llama 等 LLM 的能力遷移用于非英語任務(wù) —— 用不到 1% 的預(yù)訓(xùn)練數(shù)據(jù)就可以實(shí)現(xiàn)與當(dāng)前最佳模型相當(dāng)?shù)男阅堋?/span>
- 論文標(biāo)題:Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
- 論文地址:https://arxiv.org/abs/2401.01335
這篇論文提出了 Self-Play fIne-tuNing (SPIN,自我博弈微調(diào))。該方法采用了一種自我博弈機(jī)制,讓 LLM 可以生成并優(yōu)化自己的訓(xùn)練數(shù)據(jù),從而無需任何額外的人類標(biāo)注數(shù)據(jù)便能提升 LLM。
- 論文標(biāo)題:LLM Maybe LongLM:Self-Extend LLM Context Window Without Tuning
- 論文地址:https://arxiv.org/abs/2401.01325
這篇論文提出了一種非常簡單的技術(shù)(只有 4 行代碼),無需任何微調(diào)便能擴(kuò)展 LLM 的上下文處理能力。
- 論文標(biāo)題:A Comprehensive Study of Knowledge Editing for Large Language Models
- 論文地址:https://arxiv.org/abs/2401.01286
該論文討論了如何讓 LLM 保持信息更新,其中回顧點(diǎn)評了多種知識編輯技術(shù)(使用外部知識、將知識融合到模型中、編輯內(nèi)部知識)并提出了一個新的 KnowEdit 基準(zhǔn)。
- 論文標(biāo)題:Astraios:Parameter-Efficient Instruction Tuning Code Large Language Models
- 論文地址:https://arxiv.org/abs/2401.00788
這篇論文評估了不同的全微調(diào)和參數(shù)高效型微調(diào)技術(shù),并且發(fā)現(xiàn)全微調(diào)通常性能表現(xiàn)最佳,而 LoRA 通常能在成本和性能之間取得最好的平衡。