自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解 原創(chuàng)

發(fā)布于 2024-11-25 10:31
瀏覽
0收藏

編者按: 面對 Llama 模型家族的持續(xù)更新,您是否想要了解它們之間的關(guān)鍵區(qū)別和實際性能表現(xiàn)?本文將探討 Llama 系列模型的架構(gòu)演變,梳理了 Llama 模型從 1.0 到 3.1 的完整演進歷程,深入剖析了每個版本的技術(shù)創(chuàng)新,還通過實際實驗對比了 Llama 2 和 Llama 3 在推理速度、答案長度和相對答案質(zhì)量(RAQ)等關(guān)鍵指標上的表現(xiàn)差異。

根據(jù)本文, Llama 模型的架構(gòu)演變主要經(jīng)歷了以下三個階段:

  • Llama 1:基于原始 Transformer 架構(gòu),引入了預(yù)歸一化、RMSNorm、SwiGLU 激活函數(shù)和旋轉(zhuǎn)式位置編碼等改進,提升了模型的訓(xùn)練穩(wěn)定性和性能。
  • Llama 2:在 Llama 1 的基礎(chǔ)上,將上下文長度擴展至 4096,并引入了分組查詢注意力 (GQA) 機制,有效降低了推理過程中的內(nèi)存需求,提升了推理速度。
  • Llama 3:進一步將 GQA 應(yīng)用于小型模型,并采用更高效的分詞器 TikToken,擴大了詞匯表的數(shù)量,同時將上下文長度翻倍,并大幅增加了訓(xùn)練數(shù)據(jù)量。

作者 | Luís Roque

編譯 | 岳揚

01 Introduction

Meta 公司推出了其大語言模型 Llama 的三個主要版本。Llama 在 2023 年初的首度亮相,為開源自然語言處理(NLP)社區(qū)帶來了重大突破。Meta 一直通過分享最新的模型版本,為這一社區(qū)貢獻力量。

在這里,我們需要區(qū)分“開放型(open) LLM”與“開源(open-source) LLM”。 傳統(tǒng)上,開源軟件會在特定的公共許可證下公開源代碼,允許用戶使用和修改。在 LLM 領(lǐng)域,開放型 LLM 會公開模型權(quán)重和初始代碼,而開源 LLM 則會更進一步,在寬松的許可下共享整個訓(xùn)練過程,包括訓(xùn)練數(shù)據(jù)。目前,包括 Meta 的 Llama 在內(nèi)的多數(shù)模型,都屬于開放型 LLM,因為它們并未公開用于訓(xùn)練的數(shù)據(jù)集。

Llama 經(jīng)歷了三次重要的架構(gòu)更新。 版本 1 對原始的 Transformer 架構(gòu)進行了多項改進。版本 2 在大模型中引入了分組查詢注意力(GQA)機制。版本 3 將這一機制擴展到了小模型,同時引入了更高效的分詞器,還擴大了詞匯量。版本 3.1 并未對核心架構(gòu)做出調(diào)整,主要的變化在于訓(xùn)練數(shù)據(jù)的清洗、上下文長度的增加以及對更多語言的支持。

本文探討了 Llama 的架構(gòu)演變,著重介紹其主要進步及其對 LLM 未來發(fā)展的影響。文章最后通過一個實驗對 Llama 2 和 Llama 3 進行了比較,使用了推理速度、答案長度和相對答案質(zhì)量(RAQ,Relative Answer Quality)框架[1]等指標進行評估。RAQ 框架提供了一個客觀的評分系統(tǒng),用于檢驗 LLM 的回答準確度,對于評估特定應(yīng)用場景尤為有用。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

Figure 1: Llama family (image by author with DALL-E)

02 Llama: A Family of Open LLMs

2.1 Llama 1:該系列首個模型問世

Llama 系列的第一個模型,Llama 1 [2],是建立在 Vaswani 等人在 2017 年提出的編碼器-解碼器 Transformer 架構(gòu)之上的[3]。該架構(gòu)曾是 NLP 領(lǐng)域的重大創(chuàng)新,并且至今仍是 LLM 模型的基礎(chǔ)架構(gòu)。

Llama 1 在其核心設(shè)計中采納了這一架構(gòu),并在此基礎(chǔ)上進行了多項優(yōu)化,包括:

預(yù)歸一化技術(shù)

借鑒了 GPT3 [4]架構(gòu)中提高訓(xùn)練穩(wěn)定性的方法,Llama 1 也采用了對每個 Transformer 子層的輸入進行歸一化的策略,而不僅僅是對輸出進行歸一化處理,具體細節(jié)如圖 2 所示。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

圖 2:原始 Transformer 架構(gòu)與 Llama 1 架構(gòu)的不同之處,特別是在 Transformer 子層中,對每個輸入都進行了歸一化處理(圖片由作者提供)

此外,Llama 1 還采用了 RMSNorm [5] 來替代傳統(tǒng)的 LayerNorm 函數(shù),這一改變在保持訓(xùn)練穩(wěn)定性和提升模型收斂速度的同時,大幅提高了計算效率。

RMSNorm 之所以能更高效,是因為其創(chuàng)造者發(fā)現(xiàn) LayerNorm 的優(yōu)勢在于 rescaling invariance(譯者注:指的是歸一化過程能夠適應(yīng)輸入數(shù)據(jù)的縮放,使得網(wǎng)絡(luò)對這種縮放不敏感。),而非 recentering invariance(譯者注:如果輸入數(shù)據(jù)的均值發(fā)生了變化,但數(shù)據(jù)的分布形狀和范圍保持不變,那么具有 recentering invariance 的算法或函數(shù)的輸出應(yīng)該不受影響。)?;谶@一發(fā)現(xiàn),他們省略了歸一化過程中的均值計算,使得算法更加簡潔,而效果不減,且運算效率顯著提升。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

圖 3:層歸一化(LayerNorm)與均方根歸一化(RMSNorm)之間的方程差異(圖片由作者提供)

SwiGLU 激活函數(shù)

在激活函數(shù)的選擇上,研究者們采用了 SwiGLU [6] 函數(shù)來替代傳統(tǒng)的 ReLU 函數(shù),這一改變旨在提升模型的性能。兩者的核心差異在于:

  • ReLU 函數(shù)會將所有負數(shù)輸入直接歸零,而正數(shù)輸入則保持不變。
  • 相比之下,SwiGLU 函數(shù)含有一個可學習的參數(shù) β,能夠調(diào)節(jié)函數(shù)的插值程度。隨著 β 值的增大,SwiGLU 的行為將逐漸接近 ReLU,這一點如圖 4 所示。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

圖 4:ReLU 與 SwiGLU 在不同 β 值下的行為對比,可以看到當 β 達到 100 時,兩者的曲線趨于一致。

旋轉(zhuǎn)式位置編碼(Rotary Positional Embeddings)

在大語言模型(LLMs)中,位置編碼起到了至關(guān)重要的作用,這是因為 Transformer 架構(gòu)本身不區(qū)分單詞的順序。也就是說,如果沒有位置編碼的輔助,Transformer 會將單詞順序不同但單詞相同的兩個句子視為相同的句子。 例如,如果沒有位置編碼,下面兩個句子的含義 Transformer 將無法區(qū)分:

Sentence 1: Llama 2 is better than Llama 1 Sentence 2: Llama 1 is better than Llama 2

句子1:Llama 2的性能優(yōu)于Llama 1。句子2:Llama 1的性能優(yōu)于Llama 2。

在論文[3]中,提出了一種通過正弦和余弦函數(shù)實現(xiàn)的絕對位置編碼(Absolute Positional Embeddings)。序列中的每個位置都有其獨特的編碼(positional embedding),它們與詞向量相加,從而確保即使單詞相同,不同順序的句子也能表達不同的意思。

簡單來說,我們可以假設(shè)句子中的單詞是用一維向量而不是多維向量來編碼的。如圖 5 所示,在詞向量中,“1”和“2”的表示值是相同的。但是,在加入了位置編碼之后,它們的表示值就變得不同了(分別從0.88變?yōu)?.04,以及從0.26變?yōu)?.1)。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

圖 5:絕對位置編碼(Absolute Positional Embeddings)(圖片由作者提供)

盡管絕對位置編碼已經(jīng)解決了 Transformer 不區(qū)分順序的問題,但它生成的位置編碼是相互獨立的,沒有考慮到序列中單詞之間的相對位置關(guān)系。 這意味著在模型看來,位置 1 和位置 2 之間的相關(guān)性與位置 1 和位置 500 之間的相關(guān)性并無差異。然而,我們知道實際情況并非如此,因為在位置上更接近的單詞,其相關(guān)性理論上應(yīng)該更高。

旋轉(zhuǎn)式位置編碼[7](RoPE)能夠解決上述問題,它通過將序列中的每個位置轉(zhuǎn)換成詞嵌入的旋轉(zhuǎn)變量來模擬單詞間的相對位置關(guān)系。 以前文的 “Llama 2 is better than Llama 1” 為例,假設(shè)詞嵌入現(xiàn)在是二維的。那么,“better ”一詞將由基于其位置 m (4) 和常數(shù) θ 的原始二維向量的二維旋轉(zhuǎn)向量來表示。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

圖 6:展示了如何通過旋轉(zhuǎn)式位置編碼(Rotary Positional Embedding)將原始向量轉(zhuǎn)換為新的向量。這一轉(zhuǎn)換是基于向量在序列中的位置(例如,m=4)和常數(shù)θ來進行的(圖片由作者提供)

采用這種方式,即便在原句中增加更多詞匯,單詞之間的相對距離也能得到保持。比如,在句子 “The LLM Llama 2 is better than Llama 1” 中添加兩個單詞,盡管“better”和“than”的位置從(4和5)變?yōu)椋?和7),但由于旋轉(zhuǎn)量保持一致,兩個向量之間的相似性(即左圖中向量的點積與右圖中的點積相同)依舊不變。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

圖 7:旋轉(zhuǎn)式位置編碼維持 tokens 間相對距離的能力(圖片由作者提供)

2.2 Llama 2:Llama 1 的升級版

Llama 2 [8] 保留了 Llama 1 對原始 Transformer 架構(gòu)所做的所有改動。在此基礎(chǔ)上,還將處理上下文的長度擴展至 4096,相較于之前的 2048,翻了一番。同時,對于 34B 和 70B 這樣的大型模型,Llama 2 使用 Grouped-Query Attention (GQA) [10] 取代了傳統(tǒng)的 Multi-Head Attention (MHA) [9]。

由于需要大量內(nèi)存來加載所有的注意力頭的 queries、keys 和 values ,MHA 成為了 Transformer 的性能瓶頸。針對這一問題,有兩種解決方案:

  1. Multi-Query Attention [9](MQA)通過在注意力層使用單一的鍵和值頭(key and value),配合多個查詢頭(query heads)來大幅降低內(nèi)存需求。但這種做法可能會降低模型的質(zhì)量,并導(dǎo)致訓(xùn)練過程不穩(wěn)定,因此像 T5 這樣的其他開源大語言模型并未采用此方法。
  2. GQA 則采用了一種折中方案,它將查詢值(query values)分為 G 組(GQA-G),每組共享一個鍵和值頭(key and value head)。如果 GQA 的組數(shù)為 1(GQA-1),則相當于 MQA,所有查詢(queries)都集中在一組;而如果組數(shù)等于頭數(shù)(GQA-H),則與 MHA 相當,每個查詢(query)自成一組。這種方法減少了每個查詢(query)組中的鍵和值頭(keys and values)數(shù)量,從而縮小了鍵值緩存的大小,減少了需要加載的數(shù)據(jù)量。與 MQA 相比,這種更為溫和的縮減方式在提升推理速度的同時,也降低了解碼過程中的內(nèi)存需求,且模型質(zhì)量更接近 MHA,速度幾乎與 MQA 持平。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

圖 8:MHA、GQA 和 MQA 方法概覽(圖片由作者提供)

2.3 Llama 3: Size and Tokenization

Llama 3 [11] 將處理上下文的長度從 4096 擴展至 8192,并將 GQA 使用到了較小規(guī)模的模型(8B)。同時,研究者們還將分詞工具從 Sentence Piece [12] 更換為 OpenAI 模型所采用的 TikToken [13]。因為新的詞匯表容量增加到了 128k 個 tokens,較之前的 32k 有了大幅提升,這一變更顯著提升了模型的性能。

這兩種分詞工具的主要差異在于,在輸入的 tokens 已經(jīng)存在于詞匯表中時,TikToken 會跳過字節(jié)對編碼(BPE) [14] 的合并規(guī)則。 例如,如果“generating”這個詞已經(jīng)在詞匯表中了,那么它將作為一個完整的 token 返回,而不是將其拆分為“generating”和“ing”這兩個最小單元的 tokens 。

2.4 Llama 3.1

在 2024 年 7 月發(fā)布的 Llama 3.1,實現(xiàn)了上下文長度(128K tokens)的顯著提升,并新增了對 8 種語言的支持。此次發(fā)布版本的一個重要亮點是更大的 Llama 3.1 405B 模型。在此之前,開放式的 LLMs(大語言模型)通常模型規(guī)模都低于 100 B。

最后,我們可以從下表中總結(jié)一下 Llama 模型的演變情況:

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

表 1:比較 Llama 模型在上下文長度、詞匯表大小、訓(xùn)練數(shù)據(jù)集大小以及支持語言數(shù)量方面的演變。

03 Llama 2 與 Llama 3:模型比較

在本節(jié)中,我們將 Llama2 和 Llama 3 模型在 SQuAD 數(shù)據(jù)集上進行測試。SQuAD 是一個采用 CC BY-SA 4.0 許可協(xié)議的問答數(shù)據(jù)集(??https://huggingface.co/datasets/rajpurkar/squad)。該閱讀理解數(shù)據(jù)集(reading?? comprehension dataset)由一系列維基百科文章的問題組成。模型需要根據(jù)上下文,檢索出問題的正確答案。對于本次模型比較,數(shù)據(jù)集中有三個較為重要的字段:

  • 問題(question)——模型需要回答的問題。
  • 上下文(context)——模型需要從中提取答案的背景信息。
  • 答案(answers)——問題的文本答案。

評估過程將包括三個量化指標:第一個是評估推理速度,第二個是確定答案長度,第三個是評估準確性。 對于準確性的評估,我們使用 RAQ [1]。RAQ 通過一個獨立的 LLM 對 Llama 2 和 Llama 3 的答案進行排序,排序的依據(jù)是它們與真實答案的接近程度。

我們首先下載這兩個模型的 .gguf 格式文件,以便能夠在 CPU 上運行它們,并將它們放置在 model/ 文件夾下。

我們使用了每個模型的 instruct 版本,并進行了 4-bit 量化:

在完成上述操作之后,接下來我們會導(dǎo)入所有需要的庫,以及我們自定義的一個生成器。這個生成器是一個函數(shù)或者類,它能夠接受我們想要使用的模型作為輸入?yún)?shù)。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

這個類的作用是從 config.yaml 配置文件中載入模型參數(shù),這些參數(shù)的具體設(shè)置包括:設(shè)定上下文長度為 1024,調(diào)節(jié)模型運行的“temperature ”為 0.7,以及限制輸出的最大 tokens 數(shù)為2000。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

此外,系統(tǒng)還構(gòu)建了一個基于 LangChain 的提示詞模板。這個模板的作用是在將問題和相關(guān)上下文提交給大語言模型之前,對它們進行格式化處理,以便獲得更準確的響應(yīng)。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

函數(shù) get_llm_response 負責接收已加載的大語言模型、相關(guān)上下文以及問題,并輸出模型的回答以及一系列量化評估指標。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

評估結(jié)束后,我們將各項指標進行了可視化展示,并發(fā)現(xiàn) Llama 3 的速度比 Llama 2 快,其平均生成速度達到每秒 1.1 個單詞,而 Llama 2 的生成速度僅為每秒 0.25 個單詞。在答案長度方面,Llama 3 輸出的答案較長,平均為 70 個單詞,相比之下,Llama 2 7B 的答案平均長度只有 15 個單詞。根據(jù)相對答案質(zhì)量(RAQ,Relative Answer Quality)評估框架,Llama 3 在平均排名上拔得頭籌,約為 1.25,而 Llama 2 的表現(xiàn)則稍遜一籌,其平均排名大約為 1.8。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

圖 9:Llama 2 7B vs Llama 3 8B(圖片由作者提供)

表 2 展示了不同語言模型性能的 Dunn 事后檢驗(Dunn post-hoc test)結(jié)果。每個單元格顯示了兩種模型之間的性能差異是否在 5 %的顯著性水平(significance level)上具有統(tǒng)計意義。"Significant" 意味著存在統(tǒng)計上的顯著差異(p值不超過0.05),而 "Not Significant" 則意味著模型之間的性能差異不具備統(tǒng)計顯著性(p值超過0.05)。根據(jù)檢驗結(jié)果,Llama 3 與 Llama 2 在性能上的差異是顯著的。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

表 2:不同 LLM 模型性能排名差異的顯著性分析

最后,從定性角度,我們分析了兩種模型對某一特定問題的回答:“What percentage of improvement over energy code requirements will be the goal of all new construction and renovations?”。這一問題基于以下上下文信息得出答案,兩者均正確地回答了問題。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

然后,如下所示,Llama 2 在回答過程中先是表示答案不在給定上下文中,但最終卻又引用了上下文中的內(nèi)容來給出答案,顯得前后矛盾。而 Llama 3 則能夠準確地從上下文中找到答案,并簡潔明了地作出了正確回應(yīng)。

從 Llama 1 到 3.1:Llama 模型架構(gòu)演進詳解-AI.x社區(qū)

04 Conclusions

Llama 模型在發(fā)展過程中不斷進行改進,使模型在處理語言任務(wù)時更加高效、表現(xiàn)更佳,并且能夠適應(yīng)更廣泛的應(yīng)用場景。從最初的 Llama 1 開始,引入了如 RMSNorm 輸入歸一化和更平滑的激活函數(shù)等基礎(chǔ)性改變,后續(xù)的每個模型版本都是在此基礎(chǔ)上進一步改進。

Llama 2 通過采用 GQA 提高推理效率,對這一方法進行了優(yōu)化,為 Llama 3 的進一步提升鋪平道路。Llama 3 在此基礎(chǔ)上,將 GQA 應(yīng)用于更小型的模型,采用了詞匯表數(shù)量更大的高效分詞器,將上下文長度翻倍,并大幅增加了訓(xùn)練數(shù)據(jù)量。

Llama 3.1 版本開啟了新的篇章。它將上下文長度進一步擴展至 128K 個 token,增加了對更多語言的支持,并推出了迄今為止最大的開放式模型 —— 405B 模型。

Llama 模型的連續(xù)升級,使得它們在各種應(yīng)用場景中都具有卓越的適應(yīng)性。至今,Llama 模型已累計下載超過 3 億次,而將其集成到利用私有 LLM 技術(shù)的數(shù)千種產(chǎn)品中,僅僅是一個開始。頗具諷刺意味的是,Llama 現(xiàn)在在推動開放式 AI 的發(fā)展道路上走在了前列,取代了曾經(jīng)更為開放的 OpenAI 所占據(jù)的位置。

References

[1] Luís Roque, Rafael Guedes. “Research to Production: Relative Answer Quality (RAQ) and NVIDIA NIM.” Towards Data Science. Medium, 2024.

[2] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample. “Llama: Open and Efficient Foundation Language Models.” arXiv preprint arXiv:2302.13971, 2023.

[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. “Attention Is All You Need.” arXiv preprint arXiv:1706.03762, 2017.

[4] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. “Language Models are Few-Shot Learners.” arXiv preprint arXiv:2005.14165, 2020.

[5] Biao Zhang, Rico Sennrich. “Root Mean Square Layer Normalization.” arXiv preprint arXiv:1910.07467, 2019.

[6] Noam Shazeer. “GLU Variants Improve Transformer.” arXiv preprint arXiv:2002.05202, 2020.

[7] Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu. “RoFormer: Enhanced Transformer with Rotary Position Embedding.” arXiv preprint arXiv:2104.09864, 2021.

[8] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom. “Llama 2: Open Foundation and Fine-Tuned Chat Models.” arXiv preprint arXiv:2307.09288, 2023.

[9] Noam Shazeer. “Fast Transformer Decoding: One Write-Head is All You Need.” arXiv preprint arXiv:1911.02150, 2019.

[10] Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai. “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints.” arXiv preprint arXiv:2305.13245, 2023.

[11] Meta AI. “Introducing Llama 3.” Meta AI Blog, 2024.

[12] Taku Kudo, John Richardson. “SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing.” arXiv preprint arXiv:1808.06226, 2018.

[13] OpenAI. “TikToken.” GitHub.

[14] Rico Sennrich, Barry Haddow, Alexandra Birch. “Neural Machine Translation of Rare Words with Subword Units.” arXiv preprint arXiv:1508.07909, 2015.

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Luís Roque

Serial entrepreneur and leader in the AI space. I develop AI products for businesses and invest in AI-focused startups.

??https://www.linkedin.com/in/luisbrasroque/??

END

本期互動內(nèi)容 ??

?文章提到 Llama 模型采用了多項技術(shù)優(yōu)化,如 GQA 和高效分詞器等。你認為在這些優(yōu)化中,哪一項對模型性能提升最關(guān)鍵?為什么?

原文鏈接:

??https://towardsdatascience.com/the-evolution-of-llama-from-llama-1-to-llama-3-1-13c4ebe96258??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
標簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦