自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

白話EAGLE2:解鎖大模型的“打草稿”技術(shù) 原創(chuàng)

發(fā)布于 2024-9-30 16:18
瀏覽
0收藏

實(shí)時(shí)了解業(yè)內(nèi)動(dòng)態(tài),論文是最好的橋梁,專欄精選論文?重點(diǎn)解讀熱點(diǎn)論文,圍繞著行業(yè)實(shí)踐和工程量產(chǎn)。若在某個(gè)環(huán)節(jié)出現(xiàn)卡點(diǎn),可以回到大模型必備腔調(diào)?或者LLM背后的基礎(chǔ)模型?重新閱讀。而最新科技(Mamba,xLSTM,KAN)?則提供了大模型領(lǐng)域最新技術(shù)跟蹤。

1.總覽EAGLE-2

EAGLE-2是一種加速大型語言模型(LLM)推理過程的技術(shù)。具體來說,它采用了基于推測(cè)性采樣(speculative sampling)的技術(shù),它通過引入動(dòng)態(tài)草稿樹和草稿模型的置信度分?jǐn)?shù)來提高LLM的推理效率。EAGLE-2能確保模型生成的文本概率分布不變,也使得其成為一種無損加速算法。

  • 推測(cè)性采樣(Speculative Sampling)是一種通過生成和驗(yàn)證多個(gè)候選詞來加速LLM推理的方法。具體來說,它首先使用一個(gè)小模型快速生成一些候選詞(Draft),然后用更大的模型來驗(yàn)證這些候選詞正確性。
  • 草稿樹(Draft Tree)是一種數(shù)據(jù)組織結(jié)構(gòu),用來組織和存儲(chǔ)草稿模型(Draft Model)生成的候選詞。
  • 動(dòng)態(tài)草稿樹(Dynamic Draft Trees)是在EAGLE-2過引入的,它改進(jìn)了傳統(tǒng)靜態(tài)草稿樹的局限性。動(dòng)態(tài)草稿樹會(huì)根據(jù)草稿模型的置信度分?jǐn)?shù)和生成上下文,動(dòng)態(tài)調(diào)整草稿樹的結(jié)構(gòu)。
  • 置信度分?jǐn)?shù)是指草稿模型對(duì)某個(gè)候選詞的信心程度,它近似表示該候選詞被最終模型接受的概率。

先來感受一下EAGLE-2技術(shù)令人震撼的效果,在各種的模型的推理上遙遙領(lǐng)先,基本面能夠達(dá)到3-4倍數(shù)的加速。

白話EAGLE2:解鎖大模型的“打草稿”技術(shù)-AI.x社區(qū)

上面的統(tǒng)計(jì)結(jié)果在temperature=0時(shí)候的加速比。

temperature是LLM推理的超參數(shù)。大模型在預(yù)測(cè)下一個(gè)字符的時(shí)候,會(huì)針對(duì)詞匯表的所有候選者都生產(chǎn)預(yù)測(cè)的概率,0代表選擇永遠(yuǎn)選擇概率最高的。隨著temperature設(shè)置數(shù)據(jù)的增加,下一個(gè)預(yù)測(cè)字符的隨意性就會(huì)增加

上圖中,對(duì)于推測(cè)采樣,Vicuna系列使用Vicuna-68M作為草稿模型。LLaMA2-Chat 7B、13B 和 LLaMA3-Instruct 8B缺乏合適的草稿模型,標(biāo)記為 N/A。LLaMA2-Chat 70B和 LLaMA3-Instruct 70B分別使用LLaMA2-Chat 7B和LLaMA3-Instruct 8B作為草稿模型。在表 1 中展示了與其他方法的比較,但該圖僅展示了一個(gè)子集,包括這些方法中最快的EAGLE。

2.Speculative Sampling

推測(cè)采樣技術(shù)

推測(cè)采樣技術(shù)是鼻祖,其核心思想是先起草(Draft)然后驗(yàn)證(Verification):快速生成一個(gè)可能正確的草案,然后檢查草案中哪些Token可以被接受。

白話EAGLE2:解鎖大模型的“打草稿”技術(shù)-AI.x社區(qū)

2023年5月份提出的一種推測(cè)技術(shù)如上圖所示,每行代表算法一次迭代。

此處的近似模型,或者稱為草稿模型的是一個(gè)6M的類GPT的解碼器。這個(gè)模型是利用8k個(gè)Token訓(xùn)練出來的,目標(biāo)模型是具有97M個(gè)參數(shù)的類GPT解碼器!

綠色標(biāo)記是近似(草稿)模型提出的建議,而被目標(biāo)模型接受,而紅色和藍(lán)色標(biāo)記分別是被拒絕的建議及其更正。例如,在第一行中,目標(biāo)模型僅運(yùn)行了一次,生成了5個(gè)Token。

2024年2月份的Ouroboros針對(duì)打草稿的技術(shù)進(jìn)行加速。它從前瞻解碼中得到啟發(fā),使用草稿短語直接加速目標(biāo)模型T。因?yàn)槊枯啿莞宥陶Z都需要目標(biāo)模型T的前向傳遞來驗(yàn)證,因此限制了前瞻解碼的整體加速效果。

白話EAGLE2:解鎖大模型的“打草稿”技術(shù)-AI.x社區(qū)

它先通過使用現(xiàn)有的較小模型(橙色部分)進(jìn)行草稿,然后以低成本生成草稿短語(粉色部分),緊接這并行 的方式使用目標(biāo)LLM來驗(yàn)證草稿。在這種草稿-驗(yàn)證框架下,打草稿的效率已成為這種推測(cè)采樣技術(shù)的加速瓶頸。但是它以較低的成本生成更長的草稿可以帶來更好的解碼加速,而且它無需對(duì)草稿和目標(biāo)模型進(jìn)行微調(diào)。

一句話,作為幕后代筆的草稿模型而言,打草稿的效率十分重要!!

與前瞻解碼不同,它使用草稿短語通過草稿模型S間接加速目標(biāo)模型T,讓目標(biāo)模型的每次Forward(大白話,吐新的Token)可以同時(shí)驗(yàn)證多輪短語,從而實(shí)現(xiàn)更好的加速。如圖2所示,在Ouroboros中,草稿模型的起草過程是逐個(gè)草稿短語而不是逐個(gè)Token進(jìn)行,在草稿模型的每次Forward傳遞過程中,都會(huì)并行生成多個(gè)新短語。<如何生成另外講解!>

3.EAGLE

2024年1月份的EAGLE是對(duì)抽樣技術(shù)的改進(jìn)。在提交這項(xiàng)工作時(shí),EAGLE在Spec-Bench中排名第一,這是一個(gè)很全面的評(píng)估基準(zhǔn),旨在評(píng)估不同場(chǎng)景中的推測(cè)采樣的技術(shù)。

白話EAGLE2:解鎖大模型的“打草稿”技術(shù)-AI.x社區(qū)

EAGLE 的流水線。上半部分說明了計(jì)算過程,下半部分顯示了每個(gè)步驟對(duì)應(yīng)的生成結(jié)果。在上半部分中,綠色塊表示token嵌入,橙色塊表示特征f,紅色框表示草稿模型的預(yù)測(cè),帶有雪花圖標(biāo)的藍(lán)色模塊表示目標(biāo)大模型LLM的參數(shù),這些參數(shù)是凍結(jié)的。

白話EAGLE2:解鎖大模型的“打草稿”技術(shù)-AI.x社區(qū)

上圖為起草階段。與自回歸預(yù)測(cè) token序列的標(biāo)準(zhǔn)推測(cè)性抽樣不同,EAGLE 在更結(jié)構(gòu)化的特征級(jí)別運(yùn)行,即使用LLM原始的LM Head獲取草稿token。為了消除不確定性,EAGLE還帶上每個(gè)階段的特征(可以大致理解為上下文)f。

白話EAGLE2:解鎖大模型的“打草稿”技術(shù)-AI.x社區(qū)

驗(yàn)證階段。在標(biāo)準(zhǔn)推測(cè)性抽樣中,草稿是鏈?zhǔn)浇Y(jié)構(gòu)的,如果草稿token被拒絕,則需要丟棄所有后續(xù) token。EAGLE 使用樹形結(jié)構(gòu)草稿,允許在草稿 token被拒絕時(shí)嘗試替代分支。圖b說明了兩者之間的差異。

4.EAGLE Vs EAGLE-2

白話EAGLE2:解鎖大模型的“打草稿”技術(shù)-AI.x社區(qū)

EAGLE和EAGLE-2之間的差異。EAGLE始終使用固定的草稿形狀。當(dāng)查詢?yōu)椤?0+2=”時(shí),下一個(gè)標(biāo)記很可能被正確預(yù)測(cè)為“1”。但是,使用靜態(tài)草稿樹,即便另一個(gè)候選“3”正確的概率非常低,EAGLE仍會(huì)添加兩個(gè)候選。而EAGLE-2根據(jù)上下文調(diào)整草稿樹的形狀。當(dāng)查詢?yōu)椤?0+2”時(shí),下一個(gè)標(biāo)記很難預(yù)測(cè),因此 EAGLE-2 添加了兩個(gè)候選。對(duì)于更簡單的查詢“10+2=”,EAGLE-2僅添加一個(gè)候選“1”。

由此可以看到EAGLE-2根據(jù)上下文動(dòng)態(tài)調(diào)整草稿樹,增強(qiáng)推測(cè)性抽樣。其方法包括兩個(gè)主要階段:擴(kuò)展和重新排名。該過程從擴(kuò)展階段開始,在該階段,草稿模型從草稿樹的最新層輸入最有希望的節(jié)點(diǎn)以形成下一層。來自草案模型的置信度分?jǐn)?shù)可以用于接受率,從而可以有效地預(yù)測(cè)和驗(yàn)證Token。在重新排名階段,會(huì)選擇接受概率較高的Token作為目標(biāo)LLM的輸入。

這種兩階段方法確保草稿樹適應(yīng)上下文,顯著提高Token被目標(biāo)大模型接受的概率。同時(shí)消除了多次Forward的推理,在不影響生成文本質(zhì)量的情況下加快了推理過程。

下圖為EAGLE-2這種技術(shù)在多個(gè)模型推理上面的提升倍數(shù)。

白話EAGLE2:解鎖大模型的“打草稿”技術(shù)-AI.x社區(qū)

這一期幫助讀者解鎖了大模型的打草稿技術(shù),其實(shí)就是通過利用小模型快速并行的吐出草稿以便加速完整的推理過程。其實(shí)也好理解,比如在現(xiàn)實(shí)生活中的文學(xué)創(chuàng)作,也是先陸續(xù)生成草稿,然后再最后精校,包括這篇文章,當(dāng)然中間還有很多細(xì)節(jié)值得深究。

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦