自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

解讀小模型—SLM

原創(chuàng)
人工智能
雖然關(guān)于SLM的功能或其在設(shè)備上運(yùn)行成本的文獻(xiàn)有限,但這些模型已經(jīng)被大規(guī)模地集成到商業(yè)設(shè)備中。

大模型的世界幾乎每天都在發(fā)生變化。一方面,人們越來越重視開發(fā)更大、更強(qiáng)大的語言模型,以實(shí)現(xiàn)通用人工智能(AGI)。這些大模型通常位于擁有數(shù)十萬GPU的大型數(shù)據(jù)中心中。科技巨頭之間正在進(jìn)行一場激烈的競賽,爭奪誰能率先證明機(jī)器能夠處理復(fù)雜的語言任務(wù),并實(shí)現(xiàn)AGI。

另一方面,人們也在創(chuàng)建更小的模型,稱為小型語言模型(SLM),以便高效地部署在設(shè)備上,如臺(tái)式機(jī)、智能手機(jī)和可穿戴設(shè)備。SLM并不是指傳統(tǒng)的參數(shù)較少的模型,而是大模型的小型化版本。創(chuàng)建SLM背后的愿景是使機(jī)器智能大眾化,讓每個(gè)人都能訪問并負(fù)擔(dān)得起。盡管SLM具有潛在的重要意義,但與大模型相比,受到的關(guān)注較少。

雖然關(guān)于SLM的功能或其在設(shè)備上運(yùn)行成本的文獻(xiàn)有限,但這些模型已經(jīng)被大規(guī)模地集成到商業(yè)設(shè)備中。例如,最新的谷歌/三星智能手機(jī)內(nèi)置了Gemini Nano,使第三方移動(dòng)應(yīng)用程序能夠通過提示詞和LoRA模塊利用大模型功能。此外,iPhone和iPad上的最新iOS系統(tǒng)包括一個(gè)設(shè)備上的本地基礎(chǔ)模型,可以與操作系統(tǒng)無縫集成,從而提高性能和隱私保護(hù)。

1. 什么是SLM?

與大模型相比,SLM是一種簡化的、高效的語言模型,參數(shù)數(shù)量減少,總體規(guī)模較小。SLM中的“小”表示與大型語言模型相比,參數(shù)數(shù)量和模型的總體大小都減少了。雖然大模型可能有數(shù)十億甚至數(shù)萬億個(gè)參數(shù),但 SLM 通常只有幾百萬到幾億個(gè)參數(shù)。

圖片圖片

然而,什么是“小”可以根據(jù)場景和語言建模的當(dāng)前技術(shù)狀態(tài)而變化。隨著近年來模型規(guī)模呈指數(shù)級(jí)增長,曾經(jīng)被認(rèn)為是大模型的東西現(xiàn)在可能被認(rèn)為是小模型。GPT-2就是一個(gè)很好的例子。

2. 為什么參數(shù)的數(shù)量很重要?

語言模型中的參數(shù)數(shù)量決定了語言模型在訓(xùn)練期間學(xué)習(xí)和存儲(chǔ)信息的能力。更多的參數(shù)通常允許模型捕獲更復(fù)雜的模式和細(xì)微差別,從而提高語言任務(wù)的性能。

下面是一些SLM的例子,它們展示了這些緊湊而強(qiáng)大的模型功能:

  • Phi3 Mini: Phi-3-Mini 是一個(gè)擁有38億個(gè)參數(shù)的語言模型,基于3.3萬億個(gè)令牌的龐大數(shù)據(jù)集進(jìn)行訓(xùn)練。盡管它的尺寸較小,但是它可以與更大的模型競爭,比如 Mixtral 8x7B 和 GPT-3.5,在 MMLU (一個(gè)語言理解基準(zhǔn))和MT-bench(一個(gè)機(jī)器翻譯基準(zhǔn))上分別取得了可觀的69% 和8.38分。
  • Google Gemma 2B: Google Gemma 2B 是 Gemma 系列的一部分,是一系列為各種文本生成任務(wù)設(shè)計(jì)的輕量級(jí)開放模型。Gemma 模型的上下文長度為8192個(gè)令牌,非常適合在筆記本電腦、臺(tái)式機(jī)或云基礎(chǔ)設(shè)施等資源有限的環(huán)境中部署。
  • Databricks Dolly 3B: Databricks 的 Dolly-v2-3B 是在 Databricks 平臺(tái)上訓(xùn)練的商業(yè)級(jí)指令跟蹤語言模型。它來源于 pythia-2.8B,已經(jīng)在大約15,000個(gè)涵蓋不同領(lǐng)域的指令/響應(yīng)組上進(jìn)行了訓(xùn)練。雖然它可能不是最先進(jìn)的,但它顯示了非常高質(zhì)量的指令遵循行為。

3. SLM 的架構(gòu)變化

隨著時(shí)間的推移,這些SLM的架構(gòu)發(fā)生了變化。

圖片圖片

3.1 自注意力機(jī)制的類型改變

在Transformer模型中,自注意機(jī)制是至關(guān)重要的。在SLM中,主要有四種類型的自注意機(jī)制: 多頭注意力(MHA)、多查詢注意力(MQA)、群體查詢注意力(GQA)和多頭潛在注意力(MLA)。

圖片圖片

  • 多頭注意力機(jī)制: 這種機(jī)制允許模型通過利用多頭注意力同時(shí)關(guān)注輸入數(shù)據(jù)的不同部分。它是transformer模型中最常用的自注意機(jī)制。
  • 群組查詢注意力: GQA 是多頭注意力的一種變體,它通過在多頭之間共享查詢表示,同時(shí)保持單獨(dú)的key-value表示來降低計(jì)算復(fù)雜性。它的目的是在注意機(jī)制的計(jì)算效率和多樣性之間取得平衡。

圖片圖片

  • 多查詢注意力: 通過在所有頭之間使用一個(gè)共享查詢來簡化多頭注意力,但是允許不同的鍵和值投影。這降低了空間和時(shí)間的復(fù)雜性。
  • 多頭潛在注意力(MLA) : MLA 利用low-rank和KV聯(lián)合壓縮獲得比 MHA 更好的效果,需要的鍵值(KV)緩存要少得多。

隨著時(shí)間的推移,人們對(duì)這些自注意機(jī)制的偏好發(fā)生了變化。

圖片圖片

上圖顯示了從2022年到2024年期間自注意力機(jī)制的演變趨勢??梢钥闯?,MHA 正在逐步淘汰,并被 GQA 所取代。

3.2 前饋神經(jīng)網(wǎng)絡(luò)的類型變化

前饋網(wǎng)絡(luò)可以分為兩種主要類型: 標(biāo)準(zhǔn) FFN 和門限 FFN。

圖片圖片

  • 標(biāo)準(zhǔn) FFN: 這種類型的網(wǎng)絡(luò)由兩層組成,利用一個(gè)激活函數(shù)。這是神經(jīng)網(wǎng)絡(luò)中常用的結(jié)構(gòu)。
  • 門限 FFN: 門限 FFN 在標(biāo)準(zhǔn)方法之外進(jìn)一步采用了門限層,這個(gè)層增強(qiáng)了網(wǎng)絡(luò)控制和調(diào)節(jié)信息流的能力。

隨著時(shí)間的推移,人們對(duì)這些前饋神經(jīng)網(wǎng)絡(luò)類型的偏好也發(fā)生了變化。上冊的右側(cè)顯示了2022年至2024年SLM使用的前饋網(wǎng)絡(luò)類型的趨勢,標(biāo)準(zhǔn)的 FFN 正在逐步淘汰,并被門限 FFN 所取代。

3.3 前饋網(wǎng)絡(luò)中間層比率的變化

前饋神經(jīng)網(wǎng)絡(luò)的中間比率是指中間層維數(shù)與隱含層維數(shù)之間的比值。簡單而言,它決定了中間層相對(duì)于整個(gè)網(wǎng)絡(luò)的大小。對(duì)于標(biāo)準(zhǔn) FFN,它通常設(shè)置中間比率為4。這意味著中間層通常比隱藏層小四倍。另一方面,門限 FFN 在中間比值上表現(xiàn)出更大的分集性。它可以是從2到8的任何范圍,表明中間層的大小在不同的模型之間變化。

研究觀察了的有趣模式。下面圖提供了從2022年到2024年不同前饋網(wǎng)絡(luò)中間比率的趨勢變化。

圖片圖片

3.4 前饋神經(jīng)網(wǎng)絡(luò)激活函數(shù)的改變

在前饋神經(jīng)網(wǎng)絡(luò)(FFN)中,有四種常用的激活函數(shù):

  • ReLU (Rectified Linear Unit) : ReLU 就像一個(gè)開關(guān),打開或關(guān)閉的信息流,它應(yīng)用廣泛。
  • GELU (Gaussian Error Linear Unit): GELU 是一種平滑零值和正值之間轉(zhuǎn)換的激活函數(shù),而 GELUtanh 是GELU的變體。
  • SiLU (Sigmoid Linear Unit): SiLU 是一個(gè)結(jié)合了 Sigmoid 函數(shù)和線性函數(shù)特性的激活函數(shù)。

圖片圖片

隨著時(shí)間的推移,這些激活函數(shù)的使用發(fā)生了變化。在2022年,ReLU成為許多 FFN 的首選激活函數(shù)。然而,進(jìn)入2023年,過渡到使用 GELU 及其變體GELUtanh。到2024年,SiLU成為激活函數(shù)的主要選擇。

3.5 歸一化類型的變化

當(dāng)涉及到歸一化層時(shí),有兩種常用的主要類型: LayerNorm 和 RMSNorm。

  • LayerNorm是一種歸一化技術(shù),它調(diào)整神經(jīng)網(wǎng)絡(luò)每一層的值。它在SLM中得到了廣泛的應(yīng)用。
  • RMSNorm或平方平均數(shù)標(biāo)準(zhǔn)化有助于調(diào)整和穩(wěn)定每一層神經(jīng)網(wǎng)絡(luò)的值。

圖片圖片

在過去的幾年中,LayerNorm是最常用的技術(shù)。然而,近幾年已經(jīng)向采用 RMSNorm的方向轉(zhuǎn)變了。

3.6 詞匯表的增加

詞匯表是指SLM能夠理解和識(shí)別的唯一單詞或token的總數(shù),從2022年到2024年間詞匯表的變化趨勢。

圖片圖片

事實(shí)上,較新的SLM詞匯表通常超過50,000個(gè)單詞或token。詞匯表的擴(kuò)大使模型能夠處理更廣泛的語言,并提供更準(zhǔn)確和更全面的響應(yīng)。

4. SLM 的架構(gòu)創(chuàng)新

截至2024年10月,SLM的典型架構(gòu)往往包括GQA、具有SiLU激活的門控前饋網(wǎng)絡(luò)(FFN)、2到8之間的FFN中間層比率、RMSNorm和大于50000的詞匯表。

圖片圖片

SLM 技術(shù)近年來得到了一些創(chuàng)新和發(fā)展,其中的關(guān)鍵技術(shù)包括了參數(shù)共享和非線性補(bǔ)償技術(shù)。

4.1 參數(shù)共享

在大模型中,參數(shù)共享技術(shù)允許在網(wǎng)絡(luò)的不同部分重復(fù)使用相同的權(quán)重集。這不僅有助于減少參數(shù)數(shù)量,還能在保持性能的同時(shí)提高模型的效率。一種常見的方法是embedding-lm的head共享,即單詞嵌入層與最終語言模型(LM)的head層共享相同的權(quán)重。另一個(gè)例子是分層注意力/FFN共享,其中在模型的多個(gè)層中使用相同的權(quán)重。這種共享技術(shù)可以在Gemma和Qwen等模型中看到,顯著提升了模型的訓(xùn)練和推理效率。

圖片圖片

4.2 分層參數(shù)縮放

OpenELM引入了一種創(chuàng)新技術(shù),稱為分層參數(shù)縮放。與傳統(tǒng)模型中每個(gè)Transformer層具有相同配置不同,OpenELM為每個(gè)層分配了不同的配置。這種設(shè)計(jì)使得每一層中的參數(shù)數(shù)量發(fā)生變化,從而優(yōu)化了資源分配,提高了模型的整體效率和性能。通過這種方式,OpenELM能夠在保持計(jì)算成本可控的同時(shí),實(shí)現(xiàn)更高的精度和更強(qiáng)的表達(dá)能力。這一技術(shù)不僅提升了模型的靈活性,還增強(qiáng)了其在各種任務(wù)中的應(yīng)用效果。

圖片圖片

4.3 非線性補(bǔ)償

PanGu-π在分析現(xiàn)有語言模型架構(gòu)時(shí),注意到了一個(gè)稱為特征折疊的問題。這個(gè)問題影響了模型的表達(dá)能力。為了更直觀地解釋這一點(diǎn),我們可以深入觀察LLaMA的層結(jié)構(gòu),發(fā)現(xiàn)其學(xué)習(xí)到的特征(或表示)的多樣性開始減少,特征變得更加相似,這意味著token之間的差異減小。因此,該模型生成多樣化和高質(zhì)量輸出的能力受到了影響,進(jìn)而影響了其創(chuàng)造性和整體性能。

為了解決這個(gè)問題,PanGu-π采用了兩種非線性補(bǔ)償技術(shù)。首先,在前饋網(wǎng)絡(luò)(FFN)中引入了一系列激活函數(shù)以增加更多的非線性。其次,在多頭注意力機(jī)制(MHA)中引入了增強(qiáng)的快捷方式,進(jìn)一步增強(qiáng)了Transformer結(jié)構(gòu)的非線性。這些架構(gòu)創(chuàng)新令人興奮,因?yàn)樗鼈冿@著提高了小型語言模型的效率、性能和有效性,使它們在理解和生成類人文本方面更加強(qiáng)大和有能力。

圖片圖片

5. SLM 的應(yīng)用場景

小型的、面向特定任務(wù)的語言模型正逐漸成為大型通用模型的強(qiáng)大替代品。在以下場景中,SLM可能成為許多企業(yè)更優(yōu)的選擇。

5.1 降低成本和減少資源使用

大型模型因其龐大的功耗和資源需求而聞名。相比之下,小型語言模型(SLM)雖然也需要一定的計(jì)算資源,但由于它們是在更小、更具體的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,因此對(duì)系統(tǒng)的要求和成本要低得多。此外,由于所需的計(jì)算資源更少,SLM也消耗更少的電力,使其成為一種更加環(huán)保的選擇。這種優(yōu)勢不僅有助于降低企業(yè)的運(yùn)營成本,還能減少對(duì)環(huán)境的影響,符合可持續(xù)發(fā)展的理念。

5.2 為特定任務(wù)量身定制的性能

當(dāng)企業(yè)應(yīng)用人工智能技術(shù)時(shí),它們尋求的是針對(duì)性強(qiáng)、切實(shí)可行的解決方案,而非海量但雜亂無章的信息。盡管大型模型具備處理廣泛任務(wù)的能力,但在滿足特定業(yè)務(wù)需求方面,這些模型往往難以做到精準(zhǔn)聚焦。試圖以數(shù)千億個(gè)參數(shù)來滿足所有人的所有需求,在企業(yè)環(huán)境中幾乎毫無意義。

相比之下,專為特定任務(wù)設(shè)計(jì)的小型語言模型(SLM)在知識(shí)檢索或客戶支持等場景下表現(xiàn)更佳。例如,像Salesforce xGen這樣的開源模型,通過結(jié)合預(yù)訓(xùn)練技術(shù)和重點(diǎn)數(shù)據(jù),能夠持續(xù)提供優(yōu)秀的結(jié)果,擅長于信息匯總、代碼編寫等任務(wù)。

5.3 提高準(zhǔn)確度

人工智能模型的準(zhǔn)確性在很大程度上取決于其訓(xùn)練數(shù)據(jù)的質(zhì)量與相關(guān)性。大型通用模型通常使用大量互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練,但這些數(shù)據(jù)中有很多可能與特定的業(yè)務(wù)需求并不直接相關(guān),導(dǎo)致模型在實(shí)際應(yīng)用中表現(xiàn)不佳。相比之下,像xGen這樣的小型語言模型(SLM)則采用了與企業(yè)密切相關(guān)的數(shù)據(jù)進(jìn)行訓(xùn)練,例如客戶關(guān)系管理(CRM)系統(tǒng)中的信息。這種高度相關(guān)的數(shù)據(jù)使得SLM能夠更好地理解和處理特定領(lǐng)域的任務(wù),從而提高了模型的準(zhǔn)確性和實(shí)用性。

6. 小結(jié)

隨著企業(yè)在不斷發(fā)展的生成式AI領(lǐng)域中持續(xù)前行,SLM正逐漸成為一種實(shí)用且強(qiáng)大的解決方案。它巧妙地平衡了能力和效率,使企業(yè)能夠以更加可控和定制化的方式利用人工智能。

目前,SLM架構(gòu)的配置已經(jīng)發(fā)生了顯著變化,包括中間層比率、注意力機(jī)制類型以及激活函數(shù)等,這些調(diào)整對(duì)運(yùn)行時(shí)速度產(chǎn)生了顯著影響。盡管在SLM中對(duì)Transformer結(jié)構(gòu)的改進(jìn)相對(duì)有限,但為了實(shí)現(xiàn)最佳的精度與速度折衷,人們正在積極探索與特定硬件協(xié)同設(shè)計(jì)的方案,并進(jìn)一步優(yōu)化SLM架構(gòu)。

【參考資料】

責(zé)任編輯:武曉燕 來源: 喔家ArchiSelf
相關(guān)推薦

2024-10-31 15:00:00

AI模型

2024-11-25 11:00:00

模型訓(xùn)練

2024-04-16 14:13:03

人工智能語言模型

2024-05-16 11:34:55

2009-08-17 22:13:07

SLM協(xié)議IT運(yùn)維管理摩卡

2025-04-29 08:09:39

2023-06-07 08:22:59

LLM微調(diào)技術(shù)

2021-05-18 07:33:20

模型分層

2024-02-05 14:12:37

大模型RAG架構(gòu)

2024-05-06 07:58:23

MoE模型系統(tǒng)

2023-10-06 20:30:33

大模型LLMtoken

2024-11-27 13:08:34

2023-10-28 13:29:27

2025-04-03 04:21:00

SLM語言模型

2014-01-02 18:14:23

PTCSLM

2009-12-28 10:29:36

ADO MD

2025-01-23 08:30:41

2024-10-09 10:07:40

2025-01-10 12:58:37

2021-07-19 07:55:24

多線程模型Redis
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)