自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="74aqg"><i id="74aqg"></i></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

模型融合、混合專家、更小的LLM，幾篇論文看懂2024年LLM發(fā)展方向

作者：機(jī)器之心 2024-02-22 09:27:22

人工智能新聞

近日，AI 研究者 Sebastian Raschka 發(fā)布了一份報(bào)告，介紹了四篇與上述新階段有關(guān)的重要論文。

在過去的 2023 年中，大型語言模型（LLM）在潛力和復(fù)雜性方面都獲得了飛速的發(fā)展。展望 2024 年的開源和研究進(jìn)展，似乎我們即將進(jìn)入一個可喜的新階段：在不增大模型規(guī)模的前提下讓模型變得更好，甚至讓模型變得更小。

現(xiàn)在，2024 年的第一個月已經(jīng)過去，也許是時(shí)候盤點(diǎn)一番新年首月進(jìn)展了。近日，AI 研究者 Sebastian Raschka 發(fā)布了一份報(bào)告，介紹了四篇與上述新階段有關(guān)的重要論文。它們的研究主題簡單總結(jié)起來是這樣：

1. 權(quán)重平均和模型融合可將多個 LLM 組合成單個更好的模型，并且這個新模型還沒有傳統(tǒng)集成方法的典型缺陷，比如更高的資源需求。

2. 代理調(diào)優(yōu)（proxy-tuning）技術(shù)可通過使用兩個小型 LLM 來提升已有大型 LLM 的性能，這個過程無需改變大模型的權(quán)重。

3. 通過將多個小型模塊組合起來創(chuàng)建混合專家模型，可讓所得 LLM 的效果和效率媲美甚至超越更大型的對應(yīng)模型。

4. 預(yù)訓(xùn)練一個小型的 1.1B 參數(shù)的 LLM 可降低開發(fā)和運(yùn)營成本，并能為教育和研究應(yīng)用帶來新的可能性。

最后他總結(jié)了 1 月份的多篇有趣研究，以下是機(jī)器之心對原文不改變原義的編譯與整理。

1.WARM:On the Benefits of Weight Averaged Reward Models

論文地址：https://arxiv.org/abs/2401.12187

在這篇 1 月 22 日的論文《WARM: On the Benefits of Weight Averaged Reward Models》中，研究者提出了一種用于 LLM 獎勵模型的權(quán)重平均方法。這里的獎勵模型是指在用于對齊的 RLHF 中使用的獎勵模型。

何為權(quán)重平均？因?yàn)橛糜?LLM 的權(quán)重平均和模型融合可能會成為 2024 年最有趣的研究主題，在深入介紹這篇 WARM 論文之前，我們先來談?wù)勥@個主題。

了解模型融合和權(quán)重平均

模型融合和權(quán)重平均并不是新思想，但卻是目前最受矚目的方法。它成為了 Open LLM 排行榜上占據(jù)主導(dǎo)地位的技術(shù)。下面我們簡單討論一下這兩個概念。

權(quán)重平均和模型融合都是將多個模型或檢查點(diǎn)模型組合成單一實(shí)體。這有什么好處？類似于創(chuàng)建集成模型的概念，這種將多個模型組合成一個模型的思想可以提升訓(xùn)練的收斂、提升整體性能和提升穩(wěn)健性。需要強(qiáng)調(diào)的是，不同于傳統(tǒng)的集成方法，模型融合和權(quán)重平均會得到一個單一模型，而不是維護(hù)多個分立的模型，如下圖所示。

權(quán)重平均和模型融合（左）和多數(shù)投票（majority voting）等傳統(tǒng)集成方法（右）

傳統(tǒng)上講，權(quán)重平均涉及到將單個模型在訓(xùn)練過程中不同點(diǎn)的權(quán)重參數(shù)進(jìn)行平均。通常而言，這是在模型接近收斂的訓(xùn)練結(jié)束時(shí)完成的。這一技術(shù)的一種常見形式是隨機(jī)權(quán)重平均（SWA，Stochastic Weight Averaging）。這種方法是對一個初始較大的學(xué)習(xí)率進(jìn)行衰減，而權(quán)重則在學(xué)習(xí)率衰減期間（仍然相對較高）在多輪迭代上進(jìn)行平均。

隨機(jī)權(quán)重平均（SWA）是在訓(xùn)練周期快結(jié)束時(shí)對模型的權(quán)重進(jìn)行平均。

由于模型的訓(xùn)練軌跡可能并不均勻，因此其策略是在訓(xùn)練快結(jié)束時(shí)計(jì)算模型的平均，此時(shí)學(xué)習(xí)率較低，并且訓(xùn)練已接近收斂，如上圖所示。

另一種方法是指數(shù)移動平均（EMA，Exponentially Moving Average），其做法是通過指數(shù)級地降低舊狀態(tài)的權(quán)重來計(jì)算權(quán)重的一個平滑化版本。

2022 年，最新權(quán)重平均（LaWA，Latest Weight Averaging）表明，通過平均最新的 k 個檢查點(diǎn)的權(quán)重（每個權(quán)重都在 epoch 結(jié)束時(shí)獲取），可在損失和準(zhǔn)確度方面將訓(xùn)練過程加速多個 epoch。研究表明，這種技術(shù)能有效地用于 ResNet 視覺模型和 RoBERTa 語言模型。

然后到了 2023 年，論文《Early Weight Averaging Meets High Learning Rates for LLM Pre-training》探索了 LaWA 的一個修改版，其使用了更高的學(xué)習(xí)率，并且在訓(xùn)練期間會更早地在平均檢查點(diǎn)中開始。其研究者發(fā)現(xiàn)，這種方法能顯著提升標(biāo)準(zhǔn) SWA 和 EMA 方法的性能。

來自論文《Early Weight Averaging meets High Learning Rates for LLM Pre-training》的修改版 LaWA，論文地址：https://arxiv.org/abs/2306.03241

權(quán)重平均的做法是將同一模型的多個檢查點(diǎn)組合成單個模型，而模型融合則是將多個不同的已訓(xùn)練模型組合成單個模型。這些模型中的每一個都可能是獨(dú)立訓(xùn)練的，并且可能基于不同的數(shù)據(jù)集或任務(wù)。

模型融合已有較長的歷史，但最近一篇頗具影響力的 LLM 相關(guān)論文是《Model Ratatouille:Recycling Diverse Models for Out-of-Distribution Generalization》。（論文地址：https://arxiv.org/abs/2212.10445）

Model Ratatouille 背后的思想是復(fù)用多個同一基礎(chǔ)模型在不同的多樣性輔助任務(wù)上微調(diào)過的迭代版本，如下圖所示。

通過 Model Ratatouille 實(shí)現(xiàn)模型融合，并且對比了其它微調(diào)策略，（OOD = 分布外 / 泛化）

細(xì)致來說，Model Ratatouille 方法可以總結(jié)成下圖。

用于模型融合的 Model Ratatouille 方法

請注意，這樣的整體思路也可用于 LoRA 適應(yīng)器，如論文《LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition》展現(xiàn)的那樣。（論文地址：https://arxiv.org/abs/2307.13269）

使用了權(quán)重平均的獎勵模型

討論完了權(quán)重平均和模型融合，下面我們回到近期新發(fā)布的論文《WARM:On the Benefits of Weight Averaged Reward Models》。

這項(xiàng)研究的主要目的是提升用于 LLM 的 RLHF 對齊步驟。具體來說，研究者希望通過平均微調(diào)后的獎勵模型的權(quán)重來緩解 LLM 中的獎勵駭入（reward hacking）問題。

獎勵駭入是指 LLM 學(xué)會了操控或利用其獎勵系統(tǒng)的漏洞來獲得高分或獎勵，而不是真正完成預(yù)期任務(wù)或?qū)崿F(xiàn)基本目標(biāo)。

權(quán)重平均能讓獎勵建模更為穩(wěn)健地應(yīng)對獎勵駭入問題

為了解決獎勵駭入問題，WARM 論文提出通過權(quán)重平均將 LLM 獎勵模型組合到一起。相比于單個獎勵模型，通過這個過程得到的融合版獎勵模型獲得了 79.4% 的勝率。

WARM 是如何發(fā)揮作用的？方法其實(shí)相當(dāng)簡單：類似于隨機(jī)權(quán)重平均，WARM 會對多個模型（這里是獎勵模型）的權(quán)重進(jìn)行平均，如下圖所示。

WARM 在 RLHF 過程中的使用方式概況。這里唯一的新東西是該方法使用了來自權(quán)重平均的獎勵模型，而不是訓(xùn)練單個獎勵模型。

在此之前，我們已經(jīng)討論了一些權(quán)重平均方法。那么 WARM 是如何對權(quán)重執(zhí)行平均以獲得獎勵模型呢？這里，和隨機(jī)權(quán)重平均一樣，他們使用了一種簡單的線性平均。不過它們也有差別：其模型并不是采樣于同一軌跡，而是基于預(yù)訓(xùn)練模型獨(dú)立創(chuàng)建的，這一點(diǎn)和 Model Ratatouille 類似。另外，WARM 還使用了所謂的 Baklava 流程，可以沿微調(diào)軌跡進(jìn)行采樣。下圖比較了這些差異。

不同的模型融合和平均方法之間的比較

按照上述 WARM 流程并且平均了 10 個獎勵模型后，這些研究者發(fā)現(xiàn)了一種強(qiáng)化學(xué)習(xí)策略 —— 使用此策略，WARM 相對于單獎勵模型的勝率為 79.4%，如下圖所示。

在第 3000 步時(shí)，WARM 的表現(xiàn)超過了最佳的單獎勵模型方法

總結(jié)

模型融合并不是一種新技術(shù)，但在 LLM 領(lǐng)域卻是比較新的；考慮到 LLM 的高成本和資源需求，其就尤顯潛力了。因此，利用多個在訓(xùn)練期間創(chuàng)建的已有 LLM（不做其它處理）的方法就尤其具有吸引力。另外，相對于傳統(tǒng)的集成方法（需要同時(shí)運(yùn)行多個模型），經(jīng)過權(quán)重平均得到的模型相對輕量，在推理時(shí)間的成本并不會超過單個模型。

展望未來，我認(rèn)為 LLM 模型融合技術(shù)前景廣闊。我也預(yù)計(jì)未來會出現(xiàn)更多創(chuàng)新性的模型融合方式。

2.Tuning Language Models by Proxy

論文地址：https://arxiv.org/abs/2401.08565

論文《Tuning Language Models by Proxy》提出了一種可用于提升 LLM 的技術(shù)：proxy-tuning。這里我們將其譯為「代理調(diào)優(yōu)」。這種方法可以在某種程度上不改變權(quán)重的前提下微調(diào) LLM。

代理調(diào)優(yōu)是通過調(diào)整目標(biāo) LLM 的 logit 來實(shí)現(xiàn)的，這是解碼階段中一個非常簡單的過程。具體來說，它需要計(jì)算一個較小基礎(chǔ)模型和一個已微調(diào)模型之間的 logit 之差。然后再將這個差添加到目標(biāo)模型的 logit。Logit 是指模型最終層生成的原始輸出值。這些 logit 表示 LLM 的每個可能的輸出 token 的非歸一化分?jǐn)?shù)，之后這些分?jǐn)?shù)會通過 softmax 等函數(shù)轉(zhuǎn)換成概率。

代理調(diào)優(yōu)圖示

為了更清晰地說明這一概念，我們可以假設(shè)我們想要提升大型目標(biāo)模型 M1（比如 Llama 2 70B）的目標(biāo)函數(shù)結(jié)果。該過程涉及兩個較小的模型：一個小型基礎(chǔ)模型（M2），比如 Llama 2 7B；一個經(jīng)過微調(diào)的基礎(chǔ)模型（M3），比如 Llama 2 7B Chat。

那么如何實(shí)現(xiàn)我們想要的增強(qiáng)呢？其實(shí)就是將這些較小模型的預(yù)測結(jié)果（logit）之差用于目標(biāo)模型 M1。提升后的目標(biāo)模型 M1* 的輸出 logit 是這樣計(jì)算的：M1*(x) = M1 (x) + [M3 (x) - M2 (x)]。在得到了這些輸出 logit 之后，再使用 softmax 函數(shù)將它們轉(zhuǎn)換成概率。然后再使用這些概率來采樣得到最終輸出結(jié)果，也就是生成的文本；這個過程可以使用核采樣或 top-k 解碼等技術(shù)。

代理調(diào)優(yōu)的實(shí)踐效果如何？

他們的實(shí)驗(yàn)得到了讓人印象深刻的積極結(jié)果。這些研究者在三個不同場景中實(shí)驗(yàn)了這種方法：

1. 指令微調(diào)：提升 Llama 2 70B 基礎(chǔ)模型，使之能比肩 Llama 2 70B Chat 模型。

2. 領(lǐng)域適應(yīng)：提升 Llama 2 70B 基礎(chǔ)模型的代碼能力，目標(biāo)是達(dá)到 CodeLlama 70B 的代碼水平。

3. 針對特定任務(wù)進(jìn)行微調(diào)：提升 Llama 2 70B 基礎(chǔ)模型執(zhí)行特定任務(wù)的能力，比如 TriviaQA 或數(shù)學(xué)問題。

可以觀察到，在每種場景中，相較于原始基礎(chǔ)模型，新方法都能帶來顯著提升。舉個例子，下表重點(diǎn)對比了 Llama 70B Base 和 Chat 模型。但是，這篇論文還為 CodeLlama 提供了額外的基準(zhǔn)。

來自代理調(diào)優(yōu)論文的結(jié)果圖表

可以看到，根據(jù)上圖所示的基準(zhǔn)結(jié)果，經(jīng)過代理調(diào)優(yōu)的 70B Llama 2 模型的表現(xiàn)優(yōu)于 70B 基礎(chǔ)模型，并且?guī)缀跄苕敲乐苯游⒄{(diào)的 Llama 70B Chat 模型。

實(shí)踐方面的考慮

這種方法可以用于提升研發(fā)效率：開發(fā)新的訓(xùn)練或模型提升方法并在較小模型上測試它們以降低成本。然后，再擴(kuò)展這些方法，使之可用于提升更大型的基礎(chǔ)模型，同時(shí)無需訓(xùn)練大模型。

但是，如果要在真實(shí)世界中實(shí)際使用這些方法，仍然需要用到三種不同的模型：

1. 一個大型通用基礎(chǔ)模型

2. 一個較小的通用模型

3. 一些針對特定用例或客戶需求定制化的小型專用模型

因此，我們?yōu)槭裁催€要選擇這種方法呢，畢竟已經(jīng)有 LoRA（低秩適應(yīng)）這種更好的方法了 ——LoRA 不需要較小的通用模型，也可以使用一組小型 LoRA 矩陣替代多個小型專用模型。

這里就需要說明代理調(diào)優(yōu)方法的兩個潛在優(yōu)勢：

在某些場景中，代理調(diào)優(yōu)的表現(xiàn)可能優(yōu)于 LoRA，盡管還沒人對它們直接進(jìn)行比較。
當(dāng)大型基礎(chǔ)模型是「黑箱」時(shí)，也就是內(nèi)部權(quán)重不可用時(shí)，這種方法也可用。

但是，問題也依然存在：較小模型必須與大型目標(biāo)模型有一樣的詞表。（理論上講，如果有人知道 GPT-4 的詞表并且可以訪問其 logit 輸出，他們就可以使用此方法創(chuàng)建專用型的 GPT-4 模型。）

3.Mixtral of Experts

論文地址：https://arxiv.org/abs/2401.04088

Mixtral 8x7B 論文終于來了?。C(jī)器之心也在該論文發(fā)布時(shí)第一時(shí)間進(jìn)行了報(bào)道，參閱《Mixtral 8x7B 論文終于來了：架構(gòu)細(xì)節(jié)、參數(shù)量首次曝光》）Mixtral 8x7B 是一種稀疏的混合專家（稀疏 MoE）模型，目前是性能最佳的大型語言模型（LLM）之一，同時(shí)也是最受人關(guān)注的一種公開可用的 LLM。根據(jù)原論文，該模型的代碼庫基于 Apache 2 許可證發(fā)布，可以免費(fèi)用于學(xué)術(shù)和商業(yè)目的。

MoE 是什么？MoE 是混合專家（Mixture of Experts）的縮寫，這是一類將多個較小「專家」子網(wǎng)絡(luò)組合起來得到的集成模型。每個子網(wǎng)絡(luò)都負(fù)責(zé)處理不同類型的任務(wù)。通過使用多個較小的子網(wǎng)絡(luò)，而不是一個大型網(wǎng)絡(luò)，MoE 可以更高效地分配計(jì)算資源。這讓它們可以更有效地?cái)U(kuò)展，并可望在更廣泛的任務(wù)上實(shí)現(xiàn)更好的性能。

在下面將討論的論文《Mixtral of Experts》中，研究者討論了構(gòu)建 Mixtral 8x7B 的方法。這個模型的表現(xiàn)能比肩大得多的 Llama 2 70B 模型。

Mixtral 8x7B 能在許多基準(zhǔn)上比肩甚至超越大得多的 Llama 2 70B 模型

Mixtral 架構(gòu)

Mixtral 8x7B 的關(guān)鍵思想是用 8 個專家層替換 Transformer 架構(gòu)中的每個前饋模塊，如下圖所示。

Transformer 架構(gòu)，來自論文《Attention Is All You Need》

前饋模塊本質(zhì)上就是一個多層感知器。使用類似 PyTorch 的偽代碼，看起來就會是這樣：

此外，還有一個路由模塊，其作用是將每個 token 嵌入重定向到 8 個專家前饋模塊。然后再將這 8 個專家前饋層的輸出求和匯總，如下圖所示。

論文《Mixtral of Experts》中對 MoE 模塊的解釋

如果用數(shù)學(xué)表示，當(dāng)有 8 個專家 {E_1, E_2, ..., E_8}）時(shí)，則可以寫成如下形式：

這里，G 表示路由（即門控網(wǎng)絡(luò)），E_i 表示專家模塊的輸出。根據(jù)上面的公式，MoE 層會計(jì)算專家輸出 E_i 的加權(quán)和，其中權(quán)重是由門控網(wǎng)絡(luò) G (x)_i 為每個輸入 x 提供的。

乍一看，Mixtral 似乎只是通過這些專家（前饋）模塊為 LLM 添加額外的參數(shù)，以表示一種加權(quán)集成方法。但其實(shí)它還有另一種調(diào)整：Mixtral 是一種稀疏 MoE，這就意味著每個輸入只會使用這些專家中的一部分：

在 Mixtral 8x7B 這個特例中，作者設(shè)定了 TopK=2，也就是一次僅使用 2 個專家。因此，根據(jù)上式，G (x) 的輸出可能看起來是這樣的：[0, 0, 0.63, 0, 0, 0.37, 0, 0]。這表示第三個專家為輸出貢獻(xiàn)了 63%，而第六個專家則貢獻(xiàn)了 37%。

模型大小

Mixtral 8x7B 如何得名的？稀疏 MoE 模型的實(shí)際大小如何？8x 是指使用了 8 個專家子網(wǎng)絡(luò)。7B 是指其組合了 Mistral 7B 模塊。但是，需要重點(diǎn)指出：Mixtral 的大小并不是 8x7B = 56B。7B 參數(shù)表示 Mistral 7B 模型的整體參數(shù)規(guī)模，而在 Mixtral 8x7B 中，專家層僅替換了前饋層而已。

總體而言，Mixtral 8x7B 有 47B 參數(shù)。這意味著 Mistral 7B 模型有 9B 個非前饋參數(shù)；有趣的是，LLM 中的大多數(shù)參數(shù)都包含在前饋模塊中，而不是注意力機(jī)制中。

Mixtral 8x7B 總共有 47B 參數(shù)，明顯少于 Llama 2 70B 等模型。此外，由于每個時(shí)間步驟僅有 2 個專家處于活動狀態(tài)，因此對于每個輸入 token，該模型僅使用 13B 參數(shù)。如此一來，它的效率就比常規(guī)的非 MoE 47B 參數(shù)模型高多了。

來自論文《Mixtral of Experts》

讓專家專業(yè)化

有趣的問題來了：這些專家能否展現(xiàn)出任何特定于任務(wù)或 token 的模式？不幸的是，作者沒能觀察到特定于具體主題的專業(yè)性，如 GitHub、Arxiv、Mathematics、Wikipedia 等數(shù)據(jù)集。

但是，作者卻觀察到了一個有趣的現(xiàn)象：文本數(shù)據(jù)集中的連續(xù) token 通常會被分配給同樣的專家。此外，Python 代碼中的縮進(jìn) token 經(jīng)常被分配給同一專家，如下圖所示。

來自論文《Mixtral of Experts》

（作者并未說明每個 token 的兩個專家中哪個被標(biāo)記了顏色，但我猜想他們總是標(biāo)記權(quán)重更高的專家。）

總結(jié)

Mixtral 8x7B 有幾個優(yōu)點(diǎn)：公開可用、可比肩甚至超越 Llama 2 70B 等更大模型、以一種較新穎的方式使用稀疏 MoE 模塊來構(gòu)建 LLM。

它性能強(qiáng)大，參數(shù)效率高并且有能力處理長達(dá) 32k 的上下文窗口，因此很可能在可預(yù)見的未來（或至少在未來幾個月）里成為一大頗具吸引力的模型。我相信 MoE 模型也會成為 2024 年大多數(shù)開源項(xiàng)目的一個重點(diǎn)關(guān)注領(lǐng)域，因此《Mixtral of Experts》值得關(guān)注。

但這篇論文也有個小問題：作者并未分享訓(xùn)練數(shù)據(jù)集的有關(guān)信息。但也可以理解，因?yàn)檫@樣可以避免潛在的版權(quán)爭議。

另外，如果作者能基于同一數(shù)據(jù)集比較一下 Mixtral 8x7B 和 Llama 2 70B 就更好了；但這類研究的成本很高。還有，我也想看看 Mixtral 8x7B 與以下兩種假定的模型相比如何，因?yàn)檫@樣可以直接對比 MoE 與非 MoE 方法的效果：

?Mistral 56B（更大的非 MoE 模型）

?Mistral 47B（與 Mixtral 8x7B 參數(shù)數(shù)量一樣的非 MoE 模型）

還有一個有趣的事實(shí)：Brave 瀏覽器的 Leo 助理功能現(xiàn)在使用 Mixtral 8x7B 作為默認(rèn) LLM。）

4.TinyLlama:An Open-Source Small Language Model

論文地址：https://arxiv.org/abs/2401.02385

微軟的 phi-2 在去年 12 月引起了不少關(guān)注，之后 TinyLlama 就成了小型 LLM 類別的新晉成員。TinyLlama 不僅小，僅有 1.1B 參數(shù)，而且還完全開源。這里，「開源」是指通過一個不受限的開源軟件庫提供訓(xùn)練代碼和檢查點(diǎn)模型。你可以訪問其 GitHub 代碼庫：https://github.com/jzhang38/TinyLlama

小型 LLM（也常寫成 SLM，即小型語言模型）為何如此吸引人？因?yàn)樾⌒?LLM：

容易獲取且成本低，這就意味著可以在資源有限的計(jì)算設(shè)備（比如筆記本電腦和 / 或小型 GPU）上運(yùn)行它們。
開發(fā)和預(yù)訓(xùn)練成本更低 —— 這些模型僅需要相對少量的 GPU。
更容易針對目標(biāo)任務(wù)定制化 —— 小模型通?？梢詢H在單個 GPU 上完成微調(diào)。
能效更高 —— 考慮到訓(xùn)練和運(yùn)行大規(guī)模 AI 模型對環(huán)境的影響，這也是一個重點(diǎn)考慮因素。另一個考慮方面是在智能手機(jī)等便攜式設(shè)備上部署 LLM 時(shí)的電池壽命問題。
對教育方面的應(yīng)用很有價(jià)值 —— 小型 LLM 更容易掌控，因此更容易理解和調(diào)整。

TinyLlama 的性能

TinyLlama 的優(yōu)勢不僅是小和開源，而且在常識推理和問題求解基準(zhǔn)上的表現(xiàn)也相當(dāng)不錯，勝過其它同等大小的開源模型。

TinyLlama 的性能表現(xiàn)

當(dāng)然，TinyLlama 在這些基準(zhǔn)上比不上更大型的模型，但由于它的所有代碼都已開源，因此任何人都可以進(jìn)一步研究和微調(diào)它。

TinyLlama 帶來的想法

舉個例子，從作者的訓(xùn)練過程可以得到一個頗具教育意義的有趣見解：在 1 萬億 token 上訓(xùn)練該模型 3 epoch（而不是 1 epoch）實(shí)際上是有用的，盡管這有違 Chinchilla 的縮放率。這些縮放率認(rèn)為對于這樣的模型大小，應(yīng)該使用小得多的數(shù)據(jù)集。

來自論文《Training Compute-Optimal Large Language Models》

舉個例子，如下圖表所示，即使訓(xùn)練了多個 epoch，使用的數(shù)據(jù)都已重復(fù)，模型依然會繼續(xù)提升。

來自 TinyLlama 論文的圖表，并且在其它 6 個基準(zhǔn)上也有類似的趨勢

研究在「過大」數(shù)據(jù)集上的行為或訓(xùn)練多個 epoch 的行為時(shí)，如果使用很大的模型，就會很困難。未來在 TinyLlama 上的微調(diào)實(shí)驗(yàn)可能還能得到一些有趣結(jié)果，值得期待。（早期實(shí)驗(yàn)表明，該模型目前落后于小型的 phi-2 模型，但其實(shí) phi-2 模型依然比 TinyLlama 大 3 倍。

一月份其它有趣的研究論文

下面是一月份我看到的其它一些有趣論文。受限于篇幅，下面會用星號★標(biāo)記我認(rèn)為尤其有趣的論文。

論文標(biāo)題：KVQuant:Towards 10 Million Context Length LLM Inference with KV Cache Quantization
論文地址：https://arxiv.org/abs/2401.18079

研究者提出了一種量化鍵 - 值緩存激活的方法，該方法可盡可能緩解困惑度指標(biāo)劣化問題，并能在單個 A100 (80GB) GPU 上運(yùn)行 Llama-7B 等模型同時(shí)還支持高達(dá) 100 萬的上下文長度。

論文標(biāo)題：Rephrasing the Web:A Recipe for Compute and Data-Efficient Language Modeling
論文地址：https://arxiv.org/abs/2401.16380

作者提出使用經(jīng)過闡釋的網(wǎng)絡(luò)文檔來更高效地訓(xùn)練大型語言模型，這能在多種任務(wù)上實(shí)現(xiàn)更快的預(yù)訓(xùn)練，獲得更優(yōu)的性能，并能讓我們更好地理解訓(xùn)練數(shù)據(jù)的組成結(jié)構(gòu)對分布外性能的影響。

論文標(biāo)題：MoE-LLaVA:Mixture of Experts for Large Vision-Language Models
論文地址：https://arxiv.org/abs/2401.15947

該論文提出了一種用于擴(kuò)展大型視覺 - 語言模型的混合專家范式，能用更少的參數(shù)實(shí)現(xiàn)比肩更大模型的性能。

論文標(biāo)題：EAGLE:Speculative Sampling Requires Rethinking Feature Uncertainty
論文地址：https://arxiv.org/abs/2401.15077

EAGLE 能加速 LLM 中的自回歸解碼，其方法是在次要的特征層級上進(jìn)行處理，并整合未來的 token。

論文標(biāo)題：Multimodal Pathway:Improve Transformers with Irrelevant Data from Other Modalities
論文地址：https://arxiv.org/abs/2401.14405

這篇論文提出了 Multimodal Pathway（多模態(tài)通路）。該技術(shù)可以使用未配對的模態(tài)數(shù)據(jù)（比如音頻）提升視覺 Transformer 在另一特定模態(tài)（比如圖像）上的性能，其在多種圖像識別任務(wù)上都取得了顯著的性能提升。

論文標(biāo)題：Pix2gestalt:Amodal Segmentation by Synthesizing Wholes
論文地址：https://arxiv.org/abs/2401.14398

Pix2gestalt 是一種用于零樣本非模態(tài)圖像分割的框架，其利用了擴(kuò)散模型和一個精心合成的數(shù)據(jù)集來估計(jì)部分遮擋目標(biāo)的形狀和外觀。

論文標(biāo)題：Rethinking Patch Dependence for Masked Autoencoders
論文地址：https://arxiv.org/abs/2401.14391

交叉注意力掩碼式自動編碼器是一種新式預(yù)訓(xùn)練框架，它僅使用掩蔽 token 和可見 token 之間的交叉注意力來重建被遮掩的圖塊，其效率和質(zhì)量都勝過傳統(tǒng)的掩碼式自動編碼器。

論文標(biāo)題：SpacTor-T5:Pre-training T5 Models with Span Corruption and Replaced Token Detection
論文地址：https://arxiv.org/abs/2401.13160

這篇論文提出了 SPACTOR，這是一種用于訓(xùn)練 LLM 的方法，其將 span 損壞和 token 替換檢測組合成了一個兩階段課程；其靠少 50% 的預(yù)訓(xùn)練迭代次數(shù)和少 40% 的計(jì)算成本實(shí)現(xiàn)了與標(biāo)準(zhǔn)方法一樣的性能。

論文標(biāo)題：MambaByte:Token-free Selective State Space Model
論文地址：https://arxiv.org/abs/2401.13660

MambaByte 是一種無 token 語言 Mamba 選擇性狀態(tài)空間模型，其直接操作原始字節(jié)，可避免子詞 token 化偏差。

論文標(biāo)題：Spotting LLMs With Binoculars:Zero-Shot Detection of Machine-Generated Text
論文地址：https://arxiv.org/abs/2401.12070

Binoculars 這種新方法可以不使用訓(xùn)練數(shù)據(jù)來更準(zhǔn)確地檢測 LLM 生成的文本，其方法是通過簡單的計(jì)算來對比兩個預(yù)訓(xùn)練的 LLM。

論文標(biāo)題：WARM:On the Benefits of Weight Averaged Reward Models
論文地址：https://arxiv.org/abs/2401.12187

這項(xiàng)研究解決了與人類偏好對齊的 LLM 中的獎勵崩潰問題，其方法是通過平均微調(diào)后的獎勵模型權(quán)重來執(zhí)行強(qiáng)化學(xué)習(xí)。

論文標(biāo)題：SpatialVLM:Endowing Vision-Language Models with Spatial Reasoning Capabilities
論文地址：https://arxiv.org/abs/2401.12168

這項(xiàng)研究可提升視覺 - 語言模型（VLM）的 3D 空間推理能力 —— 作者開發(fā)了一個互聯(lián)網(wǎng)規(guī)模的空間推理數(shù)據(jù)集并基于其訓(xùn)練了一個 VLM。

論文標(biāo)題：Knowledge Fusion of Large Language Models
論文地址：https://arxiv.org/abs/2401.10491

研究者提出了一種知識融合方法，可將多個不同 LLM 組合成一個統(tǒng)一模型，其性能優(yōu)于單個模型、傳統(tǒng)集成方法和其它模型融合方法。

論文標(biāo)題：VMamba:Visual State Space Model
論文地址：https://arxiv.org/abs/2401.10166

這項(xiàng)研究將視覺 Transformer 的全局感受野和動態(tài)權(quán)重與 CNN 的線性復(fù)雜性組合起來，得到了一個名為 VMamba 的新架構(gòu)，該架構(gòu)在更高的圖像分辨率上表現(xiàn)尤其出色。

論文標(biāo)題：Self-Rewarding Language Models
論文地址：https://arxiv.org/abs/2401.10020

使用 LLM 作為評判員（LLM-as-a-Judge）的方法在訓(xùn)練期間執(zhí)行自我獎勵，可以提升 LLM 遵循指令和建模獎勵的能力；這表明，除了基于人類偏好進(jìn)行的常規(guī)訓(xùn)練，還有可能讓模型持續(xù)進(jìn)行自我提升。

論文標(biāo)題：DiffusionGPT:LLM-Driven Text-to-Image Generation System
論文地址：https://arxiv.org/abs/2401.10061

DiffusionGPT 是一種文本到圖像生成框架，其使用 LLM 解析不同的 prompt，并可從一個思維樹（Tree-of-Thought）結(jié)構(gòu)（同樣也整合了人類反饋）中選擇最合適的生成模型。

論文標(biāo)題：ReFT:Reasoning with Reinforced Fine-Tuning
論文地址：https://arxiv.org/abs/2401.08967

這篇論文提出了 Reinforced FineTuning （ReFT，強(qiáng)化微調(diào)）技術(shù)，可提升大型語言模型在數(shù)學(xué)問題求解等任務(wù)上的推理能力。其做法是將監(jiān)督式微調(diào)與強(qiáng)化學(xué)習(xí)組合起來使用，可在不使用額外訓(xùn)練數(shù)據(jù)的前提下取得優(yōu)于標(biāo)準(zhǔn)微調(diào)的結(jié)果。

論文標(biāo)題：RAG vs Fine-tuning:Pipelines, Tradeoffs, and a Case Study on Agriculture
論文地址：https://arxiv.org/abs/2401.08406

盡管 RAG（檢索增強(qiáng)式生成）和微調(diào)誰更勝一籌的爭論一直存在，但這篇論文卻表明可將 RAG 和微調(diào)組合起來，提升累積準(zhǔn)確度（背景是農(nóng)業(yè)應(yīng)用）。

論文標(biāo)題：Code Generation with AlphaCodium:From Prompt Engineering to Flow Engineering
論文地址：https://arxiv.org/abs/2401.08500

AlphaCodium 是一種迭代式的、基于測試的方法，可用于 LLM 的代碼生成任務(wù)，其可憑借更低的計(jì)算負(fù)載超過之前的方法。

論文標(biāo)題：Scalable Pre-training of Large Autoregressive Image Models
論文地址：https://arxiv.org/abs/2401.08541

受 LLM 預(yù)訓(xùn)練的啟發(fā)，該論文研究了以自回歸方式（無監(jiān)督）來預(yù)訓(xùn)練視覺模型。結(jié)果證明模型性能會隨模型大小和數(shù)據(jù)量擴(kuò)展，并且其在 ImageNet-1k 上取得了亮眼的結(jié)果（而且還未飽和）。

論文標(biāo)題：Tuning Language Models by Proxy
論文地址：https://arxiv.org/abs/2401.08565

在適應(yīng)大型語言模型方面，代理調(diào)優(yōu)是一種能高效利用資源的方法。其做法是使用一個較小的已微調(diào)模型來修改其預(yù)測結(jié)果。該方法在實(shí)驗(yàn)中表現(xiàn)接近直接微調(diào)方法，甚至在專有模型上也是如此。

論文標(biāo)題：An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models
論文地址：https://arxiv.org/abs/2401.06692

使用 LLM 的監(jiān)督式微調(diào)中的實(shí)驗(yàn)設(shè)計(jì)技術(shù)（選取信息量最大的樣本進(jìn)行標(biāo)注以最大化效率），研究者將標(biāo)注成本降低了 50%（相比于隨機(jī)采樣）。

論文標(biāo)題：A Closer Look at AUROC and AUPRC under Class Imbalance
論文地址：https://arxiv.org/abs/2401.06091

這篇論文挑戰(zhàn)了機(jī)器學(xué)習(xí)領(lǐng)域一個廣被認(rèn)可的信念：對于類別不平衡的二元分類問題，精度召回曲線下面積（AUPRC）優(yōu)于接收者操作特征下面積（AUROC）。

論文標(biāo)題：The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
論文地址：https://arxiv.org/abs/2401.06751

作者發(fā)現(xiàn)，模型通常能夠很好地從簡單數(shù)據(jù)泛化到困難數(shù)據(jù)。他們指出在更簡單數(shù)據(jù)上進(jìn)行訓(xùn)練會更高效。他們使用多達(dá) 700 億參數(shù)的模型在多個問答數(shù)據(jù)集上實(shí)驗(yàn)驗(yàn)證了這一點(diǎn)。

論文標(biāo)題：Sleeper Agents:Training Deceptive LLMs that Persist Through Safety Training
論文地址：https://arxiv.org/abs/2401.05566

這項(xiàng)研究調(diào)查了 LLM 學(xué)習(xí)欺騙行為的可能性，并發(fā)現(xiàn)標(biāo)準(zhǔn)的安全訓(xùn)練技術(shù)無法有效地移除這些持續(xù)存在的欺騙性策略。

論文標(biāo)題：Transformers are Multi-State RNNs
論文地址：https://arxiv.org/abs/2401.06104

這項(xiàng)研究表明，最初被認(rèn)為與循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）不同的僅解碼器 Transformer 可被視為具有無限隱藏狀態(tài)大小的無限多狀態(tài) RNN。

論文標(biāo)題：RoSA:Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation
論文地址：https://arxiv.org/abs/2401.04679

這項(xiàng)研究提出了一種新的用于 LLM 的參數(shù)高效型微調(diào)方法 RoSA。其做法是在固定的預(yù)訓(xùn)練權(quán)重上訓(xùn)練低秩和高度稀疏的組件，這樣得到的效果優(yōu)于 LoRA 等現(xiàn)有方法。

論文標(biāo)題：A Minimaximalist Approach to Reinforcement Learning from Human Feedback
論文地址：https://arxiv.org/abs/2401.04056

該論文提出了自我對弈偏好優(yōu)化（SPO），這是一種簡單卻有效的強(qiáng)化學(xué)習(xí)算法，可替代 RLHF 但不需要獎勵模型。

論文標(biāo)題：MoE-Mamba:Efficient Selective State Space Models with Mixture of Experts
論文地址：https://arxiv.org/abs/2401.04081

該論文提出將 Mamba 等狀態(tài)空間模型與混合專家（MoE）組合起來，這樣得到的 MoE-Mamba 模型在效率和有效性上既優(yōu)于標(biāo)準(zhǔn)的 Mamba 結(jié)構(gòu)的狀態(tài)空間模型，也勝過一個 Transformer-MoE 基準(zhǔn)模型。

論文標(biāo)題：Soaring from 4K to 400K:Extending LLM’s Context with Activation Beacon
論文地址：https://arxiv.org/abs/2401.03462

研究者提出通過激活信標(biāo)（activation beacon）來擴(kuò)展 LLM 的上下文窗口。所謂的激活信標(biāo)是指添加到輸入上下文中的激活的壓縮狀態(tài)。

論文標(biāo)題：Denoising Vision Transformers
論文地址：https://arxiv.org/abs/2401.02957

作者發(fā)現(xiàn)，視覺 Transformer（ViT）中常見的網(wǎng)格狀偽影是由輸入階段的位置嵌入造成的。他們提出了一種去噪視覺 Transformer，可從現(xiàn)有 ViT 提取出凈化后的特征。

論文標(biāo)題：DeepSeek LLM:Scaling Open-Source Language Models with Longtermism
論文地址：https://arxiv.org/abs/2401.02954

DeepSeek LLM 有 7B 和 67B 兩種配置，其訓(xùn)練使用了一個 2 萬億 token 的數(shù)據(jù)集。該研究優(yōu)化了 Chinchilla 縮放率并且表現(xiàn)優(yōu)于 LLaMA-2 70B 和 GPT-3.5 等模型。

論文標(biāo)題：Blending Is All You Need:Cheaper, Better Alternative to Trillion-Parameters LLM
論文地址：https://arxiv.org/abs/2401.02994

這篇論文提出了 Blending。該方法可從多個更小的聊天 AI 模型隨機(jī)選取響應(yīng)。結(jié)果表明組合使用中等大小的模型（6B/13B）可以達(dá)到或超過 ChatGPT（參數(shù)超過 175B）等更大型模型的表現(xiàn)。

論文標(biāo)題：LLM Augmented LLMs:Expanding Capabilities through Composition
論文地址：https://arxiv.org/abs/2401.02412

CALM（增強(qiáng)語言模型的組合方法）是將礎(chǔ) LLM 和專業(yè) LLM 組合到一起，其使用了交叉注意力來提升在新任務(wù)上的表現(xiàn)（比如資源很少的語言的翻譯和代碼生成任務(wù)），這個過程僅需極少量的額外參數(shù)和數(shù)據(jù)。

論文標(biāo)題：LLaMA Pro:Progressive LLaMA with Block Expansion
論文地址：https://arxiv.org/abs/2401.02415

該論文提出了一種用于 LLM 的后預(yù)訓(xùn)練方法，將 Llama 7B 轉(zhuǎn)變?yōu)?Llama Pro-8.3B。該方法可擴(kuò)展 Transformer 模塊，以提升其在編程和數(shù)學(xué)等領(lǐng)域的表現(xiàn)，同時(shí)還不會忘記以前的知識。

論文標(biāo)題：A Mechanistic Understanding of Alignment Algorithms:A Case Study on DPO and Toxicity
論文地址：https://arxiv.org/abs/2401.01967

該研究探索了直接偏好優(yōu)化（DPO）算法如何通過降低有害性來將 GPT2-medium 等預(yù)訓(xùn)練模型與用戶偏好對齊，其中揭示出它會繞過而不是移除預(yù)訓(xùn)練功能。該研究還給出了一種將模型恢復(fù)到其原始有毒行為的方法。

論文標(biāo)題：LLaMA Beyond English:An Empirical Study on Language Capability Transfer
論文地址：https://arxiv.org/abs/2401.01055

該論文探究了如何將 Llama 等 LLM 的能力遷移用于非英語任務(wù) —— 用不到 1% 的預(yù)訓(xùn)練數(shù)據(jù)就可以實(shí)現(xiàn)與當(dāng)前最佳模型相當(dāng)?shù)男阅堋?/span>

論文標(biāo)題：Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
論文地址：https://arxiv.org/abs/2401.01335

這篇論文提出了 Self-Play fIne-tuNing （SPIN，自我博弈微調(diào)）。該方法采用了一種自我博弈機(jī)制，讓 LLM 可以生成并優(yōu)化自己的訓(xùn)練數(shù)據(jù)，從而無需任何額外的人類標(biāo)注數(shù)據(jù)便能提升 LLM。

論文標(biāo)題：LLM Maybe LongLM:Self-Extend LLM Context Window Without Tuning
論文地址：https://arxiv.org/abs/2401.01325

這篇論文提出了一種非常簡單的技術(shù)（只有 4 行代碼），無需任何微調(diào)便能擴(kuò)展 LLM 的上下文處理能力。

論文標(biāo)題：A Comprehensive Study of Knowledge Editing for Large Language Models
論文地址：https://arxiv.org/abs/2401.01286

該論文討論了如何讓 LLM 保持信息更新，其中回顧點(diǎn)評了多種知識編輯技術(shù)（使用外部知識、將知識融合到模型中、編輯內(nèi)部知識）并提出了一個新的 KnowEdit 基準(zhǔn)。

論文標(biāo)題：Astraios:Parameter-Efficient Instruction Tuning Code Large Language Models
論文地址：https://arxiv.org/abs/2401.00788

這篇論文評估了不同的全微調(diào)和參數(shù)高效型微調(diào)技術(shù)，并且發(fā)現(xiàn)全微調(diào)通常性能表現(xiàn)最佳，而 LoRA 通常能在成本和性能之間取得最好的平衡。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營