自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

算法、系統(tǒng)和應(yīng)用,三個(gè)視角全面讀懂混合專家(MoE)

人工智能 新聞
LLM 很強(qiáng),而為了實(shí)現(xiàn) LLM 的可持續(xù)擴(kuò)展,有必要找到并實(shí)現(xiàn)能提升其效率的方法,混合專家(MoE)就是這類方法的一大重要成員。

最近,各家科技公司提出的新一代大模型不約而同地正在使用混合專家(Mixture of Experts:MoE)方法。

混合專家這一概念最早誕生于 1991 年的論文《Adaptive mixtures of local experts》,三十多年來(lái)已經(jīng)得到了廣泛的探索和發(fā)展。近年來(lái),隨著稀疏門控 MoE 的出現(xiàn)和發(fā)展,尤其是與基于 Transformer 的大型語(yǔ)言模型相結(jié)合,這種已有三十多年歷史的技術(shù)煥發(fā)出了新的生機(jī)。

MoE 框架基于一個(gè)簡(jiǎn)單卻又強(qiáng)大思想:模型的不同部分(稱為專家)專注于不同的任務(wù)或數(shù)據(jù)的不同方面。

使用這一范式時(shí),對(duì)于一個(gè)輸入,僅有與之相關(guān)的專家(Expert)才會(huì)參與處理,這樣一來(lái)便能控制計(jì)算成本,同時(shí)仍能受益于大量專業(yè)知識(shí)。因此,MoE 可在不大幅提升計(jì)算需求的前提下提升大語(yǔ)言模型的能力。

如圖 1 所示,MoE 相關(guān)研究增長(zhǎng)強(qiáng)勁,尤其是在 2024 年 Mixtral-8x7B 以及 Grok-1、DBRX、Arctic、DeepSeek-V2 等各種產(chǎn)業(yè)級(jí) LLM 出現(xiàn)之后。

圖片

這張圖來(lái)自香港科技大學(xué)(廣州)的一個(gè)研究團(tuán)隊(duì)近日發(fā)布的一篇 MoE 綜述報(bào)告,其中清晰且全面地總結(jié)了 MoE 相關(guān)研究,并提出了一種全新的分類法,將這些研究歸類到了算法、系統(tǒng)和應(yīng)用三大類。

圖片


  • 論文標(biāo)題:A Survey on Mixture of Experts
  • 論文地址:https://arxiv.org/pdf/2407.06204

機(jī)器之心整理了這篇綜述報(bào)告的內(nèi)容主干,以幫助讀者了解當(dāng)前 MoE 的發(fā)展概況,更多詳情請(qǐng)閱讀原論文。此外,我們也在文末整理了一些與 MoE 相關(guān)的報(bào)道。

混合專家的背景知識(shí)

在基于 Transformer 的大型語(yǔ)言模型(LLM)中,每個(gè)混合專家(MoE)層的組成形式通常是 ?? 個(gè)「專家網(wǎng)絡(luò)」{??_1, ... , ??_??} 搭配一個(gè)「門控網(wǎng)絡(luò)」G。

這個(gè)門控網(wǎng)絡(luò)的形式通常是一個(gè)使用 softmax 激活函數(shù)的線性網(wǎng)絡(luò),其作用是將輸入引導(dǎo)至合適的專家網(wǎng)絡(luò)。MoE 層的放置位置是在 Transformer 模塊內(nèi),作用是選取前向網(wǎng)絡(luò)(FFN),通常位于自注意力(SA)子層之后。這種放置方式很關(guān)鍵,因?yàn)殡S著模型增大,F(xiàn)FN 的計(jì)算需求也會(huì)增加。舉個(gè)例子,在參數(shù)量達(dá)到 5400 億的 PaLM 模型中,90% 的參數(shù)都位于其 FFN 層中。

用數(shù)學(xué)形式描述的話:每個(gè)專家網(wǎng)絡(luò) ??_?? (通常是一個(gè)線性 - ReLU - 線性網(wǎng)絡(luò))都由 W_?? 進(jìn)行參數(shù)化,其接收同一輸入 x 并生成輸出 ??_?? (x; W_??)。同時(shí),參數(shù)為 Θ 的門控網(wǎng)絡(luò) G(通常由一個(gè)線性 - ReLU - 線性 - softmax 網(wǎng)絡(luò)構(gòu)成)得到輸出 G (x; Θ)。再根據(jù)門控函數(shù)的設(shè)計(jì)方式,可以將 MoE 層大致分為以下兩類。

圖片

密集 MoE

密集混合專家層是在每次迭代過(guò)程中激活所有專家網(wǎng)絡(luò) {??_1, ... , ??_??}。早期的 MoE 研究普遍采用了這一策略。近段時(shí)間也有一些研究采用了密集 MoE,比如 EvoMoE、MoLE 、LoRAMoE 和 DS-MoE。圖 2a 給出了密集 MoE 層的結(jié)構(gòu)。因此,密集 MoE 層的輸出可以表示成:

其中,??(x; Θ) 是 softmax 運(yùn)算之前的門控值。

稀疏 MoE

盡管密集混合專家的預(yù)測(cè)準(zhǔn)確度通常更高,但其計(jì)算負(fù)載也非常高。

為了解決這個(gè)問(wèn)題,Shazeer et al. 的論文《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》引入了稀疏門控 MoE 層,其能在每次前向通過(guò)時(shí)僅激活選定的專家子集。該策略實(shí)現(xiàn)稀疏性的方式是計(jì)算 top-k 個(gè)專家的輸出的加權(quán)和,而非將所有專家的輸出聚合到一起。圖 2b 展示了這種稀疏 MoE 層的結(jié)構(gòu)。

根據(jù)上述論文提出的框架,可對(duì) 2.2 式進(jìn)行修改以反映稀疏門控機(jī)制:

圖片

這里解釋一下:TopK (?, ??) 函數(shù)是僅保留向量原始值的前 k 項(xiàng),同時(shí)將其它項(xiàng)設(shè)置為 ?∞。之后是 softmax 運(yùn)算,所有 ?∞ 項(xiàng)都會(huì)變成近似于零。超參數(shù) k 要根據(jù)具體應(yīng)用選取,常見(jiàn)選項(xiàng)是 ?? = 1 或 ?? = 2。加入噪聲項(xiàng) R_noise 是訓(xùn)練稀疏門控 MoE 層的一種常用策略,可促進(jìn)專家之間的探索并提升 MoE 訓(xùn)練的穩(wěn)定性。

盡管稀疏門控 G (x; Θ) 可在不增加相應(yīng)計(jì)算成本的前提下顯著擴(kuò)展模型的參數(shù)空間,但也會(huì)導(dǎo)致負(fù)載平衡問(wèn)題。負(fù)載平衡問(wèn)題是指各專家的負(fù)載分布不均 —— 某些專家被頻繁使用,而另一些專家則很少被使用甚至完全不上場(chǎng)。

為了解決這個(gè)問(wèn)題,每個(gè) MoE 層都要集成一個(gè)輔助損失函數(shù),其作用是敦促每批次的 token 被均勻分配給各個(gè)專家。從數(shù)學(xué)形式描述來(lái)看,首先定義一個(gè)包含 T 個(gè) token 的查詢批次 B = {x_1 , x_2, ... , x_?? } 以及 N 個(gè)專家。則對(duì)于其的輔助負(fù)載平衡損失定義為:

其中 D_i 是分配給專家 i 的 token 比例,P_i 是分配給專家 i 的門控概率比例。為了確保該批次在 N 個(gè)專家之間均勻分布,應(yīng)當(dāng)最小化負(fù)載平衡損失函數(shù) L_{load-balancing}。當(dāng)每個(gè)專家都被分配了同等數(shù)量的 token D_?? = 1/?? 和同等的門控概率 P_?? = 1/?? 時(shí),即達(dá)到最優(yōu)條件:

圖片

此時(shí)各專家的負(fù)載達(dá)到平衡。

在后文中,除非另有明確說(shuō)明,則「MoE」這一術(shù)語(yǔ)單指「稀疏 MoE」。

混合專家的分類

為了幫助研究者在大量采用 MoE 的 LLM 研究中找到目標(biāo),該團(tuán)隊(duì)開(kāi)發(fā)了一套分類方法,根據(jù)三個(gè)方面對(duì)這些模型進(jìn)行了分類:算法設(shè)計(jì)、系統(tǒng)設(shè)計(jì)和應(yīng)用。

圖 3 展示了這種分類法以及一些代表性研究成果。

下面將全面深入地介紹各類別的情況。

混合專家的算法設(shè)計(jì)

門控函數(shù)

門控函數(shù)(也被稱為路由函數(shù)或路由器)是所有 MoE 架構(gòu)的基礎(chǔ)組件,其作用是協(xié)調(diào)使用專家計(jì)算以及組合各專家的輸出。

根據(jù)對(duì)每個(gè)輸入的處理方法,該門控可分為三種類型:稀疏式、密集式和 soft 式。其中稀疏式門控機(jī)制是激活部分專家,而密集式是激活所有專家,soft 式則包括完全可微方法,包括輸入 token 融合和專家融合。圖 4 展示了 MoE 模型中使用的各種門控函數(shù)。


  • 稀疏式

稀疏門控函數(shù)在處理各個(gè)輸入 token 時(shí)會(huì)激活被選中的部分專家,這可被視為一種形式的條件計(jì)算。

門控函數(shù)可以實(shí)現(xiàn)多種形式的門控決策,比如二元決策、稀疏或連續(xù)決策、隨機(jī)或確定性決策;其已經(jīng)得到了深入的研究,可使用各種形式的強(qiáng)化學(xué)習(xí)和反向傳播來(lái)訓(xùn)練。

Shazeer et al. 的研究《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》開(kāi)創(chuàng)性地提出了一種使用輔助負(fù)載平衡損失的可微分啟發(fā)式方法,其中可根據(jù)選取概率對(duì)專家計(jì)算的輸出進(jìn)行加權(quán)。這為門控過(guò)程引入了可微性,由此可通過(guò)梯度來(lái)引導(dǎo)門控函數(shù)的優(yōu)化。

后來(lái),這一范式便成了 MoE 研究領(lǐng)域的主導(dǎo)范式。由于這種方法會(huì)針對(duì)每個(gè)輸入 token 選擇專家,因此可將其看作是 token 選擇式門控函數(shù)。

以下為這一小節(jié)的要點(diǎn),詳見(jiàn)原論文:

  • token 選擇式門控
  • 用于 token 選擇式門控的輔助損失
  • token 選擇式門控的專家容量
  • token 選擇式門控的其它進(jìn)展
  • 不可訓(xùn)練的 token 選擇式門控
  • 專家選擇式門控

圖片

  • 密集式

密集 MoE 是指處理每個(gè)輸入時(shí)都激活所有專家。

雖然稀疏 MoE 有效率方面的優(yōu)勢(shì),但密集 MoE 方向依然在不斷迎來(lái)創(chuàng)新。尤其值得一提的是,密集激活在 LoRA-MoE 微調(diào)方面表現(xiàn)很好,并且 LoRA 專家的計(jì)算開(kāi)銷相對(duì)較低。這種方法能夠有效靈活地集成多個(gè) LoRA 以完成各種下游任務(wù)。這能保留原始預(yù)訓(xùn)練模型的生成能力,同時(shí)保留各個(gè) LoRA 針對(duì)各個(gè)任務(wù)的獨(dú)有特性。

  • soft 式

對(duì)稀疏 MoE 來(lái)說(shuō),一大基本離散優(yōu)化難題是如何決定為每個(gè) token 分配哪些合適的專家。為了確保專家能平衡地參與并盡可能減少無(wú)分配 token,這通常必須啟發(fā)式的輔助損失。在涉及分布外數(shù)據(jù)的場(chǎng)景(比如推理批次小、有全新輸入或遷移學(xué)習(xí))中,這個(gè)問(wèn)題尤其顯著。

類似于密集 MoE,soft MoE 方法在處理每個(gè)輸入時(shí)也會(huì)使用所有專家,從而維持完全可微性,進(jìn)而避免離散專家選擇方法的固有問(wèn)題。soft MoE 與密集 MoE 的不同在于前者會(huì)通過(guò)對(duì)輸入 token 或?qū)<疫M(jìn)行門控加權(quán)的融合來(lái)緩解計(jì)算需求。

專家

這一節(jié)會(huì)介紹 MoE 框架內(nèi)專家網(wǎng)絡(luò)的架構(gòu),并會(huì)討論協(xié)調(diào)這些專家的激活的門控函數(shù)。

  • 網(wǎng)絡(luò)類型

自從 MoE 被整合到 Transformer 架構(gòu)中以來(lái),其通常會(huì)替代這些模型中的前向網(wǎng)絡(luò)(FFN)模塊。通常來(lái)說(shuō),MoE 層中的每個(gè)專家都會(huì)復(fù)制其替換的 FFN 的架構(gòu)。

這種將 FFN 用作專家的范式到現(xiàn)在依然是主流,但人們也對(duì)此做了不少改進(jìn)。

  • 超參數(shù)

稀疏 MoE 模型的規(guī)模由幾個(gè)關(guān)鍵超參數(shù)控制,包括:

  • 每個(gè) MoE 層的專家數(shù)量
  • 每個(gè)專家的大小
  • MoE 層在整個(gè)模型中的放置頻率

這些超參數(shù)的選擇至關(guān)重要,因?yàn)樗鼤?huì)深刻影響模型在各種任務(wù)中的性能和計(jì)算效率。因此,要根據(jù)特定的應(yīng)用要求和計(jì)算基礎(chǔ)設(shè)施來(lái)選擇最佳超參數(shù)。表 2 給出了一些使用 MoE 的模型的配置情況。

圖片

另外,表 3 列舉了一些近期的開(kāi)源模型的參數(shù)數(shù)量和基準(zhǔn)性能。

圖片

  • 激活函數(shù)

基于密集 Transformer 架構(gòu)構(gòu)建的稀疏 MoE 模型采用了與 BERT、T5、GPT 和 LLAMA 等領(lǐng)先的密集 LLM 類似的激活函數(shù)。激活函數(shù)已經(jīng)從 ReLU 發(fā)展出了 GeLU、GeGLU、SwiGLU 等更先進(jìn)的選擇。

這一趨勢(shì)也擴(kuò)展到了 MoE 模型的其它組件,它們經(jīng)常整合均方根層歸一化(RMSNorm)、分組查詢注意力(GQA)和旋轉(zhuǎn)位置嵌入(RoPE)等技術(shù)。

  • 共享專家

DeepSpeed-MoE 創(chuàng)新性地引入了殘差 MoE(Residual-MoE)架構(gòu),其中每個(gè) token 都由一個(gè)固定專家外加一個(gè)門控選擇的專家進(jìn)行處理,實(shí)現(xiàn)了每一層都有兩個(gè)專家參與處理,同時(shí)也不會(huì)讓通信成本超過(guò) top-1 門控方法。這種方法是把門控選擇的 MoE 專家當(dāng)作是固定密集 FFN 的糾錯(cuò)輔助。

NLLB 中使用的條件式 MoE 路由(CMR/Conditional MoE Routing)也采用了類似的方法,將密集 FFN 和 MoE 層的輸出組合起來(lái)使用。

將固定 FFN 和稀疏 MoE 整合起來(lái)的范式通常被稱為共享專家,如圖 5b 所示。

圖片

近期有 DeepSeekMoE、OpenMoE、Qwen1.5-MoE 和 MoCLE 等模型采用這一范式,表明其正在成為一種主流配置。不過(guò) DeepSeekMoE 和 Qwen1.5-MoE 采用了多個(gè)共享專家,而不是單個(gè)。

混合參數(shù)高效型專家

參數(shù)高效型微調(diào)(PEFT)是一種提升微調(diào)效率的方法。簡(jiǎn)單來(lái)說(shuō),PEFT 就是在微調(diào)時(shí)僅更新基礎(chǔ)模型的一小部分參數(shù)。

PEFT 很成功,但由于其可訓(xùn)練的參數(shù)有限以及可能存在的災(zāi)難性遺忘問(wèn)題,該方法難以用于需要泛化到多個(gè)任務(wù)的情況。

為了緩解這些局限,混合參數(shù)高效型專家(MoPE)誕生了,其將 MoE 框架與 PEFT 整合到了一起。MoPE 集成了 MoE 的門控機(jī)制與多專家架構(gòu),同時(shí)每個(gè)專家都使用了 PEFT 技術(shù)進(jìn)行構(gòu)建。這種巧妙的組合能極大提升 PEFT 在多任務(wù)場(chǎng)景中的性能。此外,由于使用了 PEFT 來(lái)構(gòu)建專家,因此 MoPE 使用的參數(shù)也更少,資源效率比傳統(tǒng) MoE 模型高得多。

MoPE 融合了 MoE 的多任務(wù)特性與 PEFT 的資源效率,是一個(gè)極具前景的研究方向。圖 6 根據(jù)在 Transformer 模型架構(gòu)中的位置對(duì) MoPE 進(jìn)行了分類。至于 MoPE 方面更詳細(xì)的研究成果介紹,請(qǐng)參看原論文。

訓(xùn)練和推理方案

混合專家在進(jìn)步發(fā)展,相關(guān)的訓(xùn)練和推理方案也在進(jìn)步發(fā)展。

初始的訓(xùn)練和推理方案需要從頭開(kāi)始訓(xùn)練 MoE 模型,直接采用訓(xùn)練的模型配置來(lái)執(zhí)行推理。

但現(xiàn)在,MoE 模型的訓(xùn)練和推理方面已經(jīng)出現(xiàn)了許多新范式,包括組合密集模型和稀疏模型的優(yōu)勢(shì)實(shí)現(xiàn)取長(zhǎng)補(bǔ)短。

圖 7 展示了與 MoE 相關(guān)的訓(xùn)練和推理方案,可以看到新出現(xiàn)的方案可分為三類:

  • 密集到稀疏:從密集模型訓(xùn)練開(kāi)始,逐步過(guò)渡到稀疏 MoE 配置;
  • 稀疏到密集:涉及到將稀疏 MoE 模型降格為密集形式,這有利于將推理實(shí)現(xiàn)為硬件形式;
  • 專家模型融合:將多個(gè)預(yù)訓(xùn)練密集專家模型整合成一個(gè)統(tǒng)一的 MoE 模型。

MoE 的衍生技術(shù)

混合專家(MoE)啟發(fā)了許多不同的變體技術(shù)。舉個(gè)例子,Xue et al. 的論文《Go wider instead of deeper》提出了模型寬度增大的 WideNet,其做法是將前向網(wǎng)絡(luò)(FFN)替換成 MoE 層,同時(shí)維持 Transformer 層上的共享可訓(xùn)練參數(shù),但歸一化層除外。

另外還有 Tan et al. 提出的 SYT(稀疏通用 Transformer)、Antoniak et al. 提出的 MoT(混合 token)、Choi et al. 提出的 SMoP(稀疏混合提詞)、Chen et al. 提出的 Lifelong-MoE、Raposo et al. 提出的 MoD(混合深度)等。

總結(jié)一下,MoE 衍生技術(shù)的發(fā)展揭示了一個(gè)趨勢(shì):MoE 的功能越來(lái)越多,越來(lái)越能適應(yīng)不同的領(lǐng)域。

混合專家的系統(tǒng)設(shè)計(jì)

混合專家(MoE)雖然能增強(qiáng)大型語(yǔ)言模型的能力,但也帶來(lái)了新的技術(shù)挑戰(zhàn),因?yàn)槠渚哂邢∈枨覄?dòng)態(tài)的計(jì)算負(fù)載。

GShard 引入了專家并行化(expert parallelism),可根據(jù)專家能力的負(fù)載平衡限制來(lái)調(diào)度切分后的局部 token,從而實(shí)現(xiàn)并行的門控和專家計(jì)算。該范式已經(jīng)成為促進(jìn) MoE 模型高效擴(kuò)展的基礎(chǔ)策略。我們可以將該方法看作是增強(qiáng)版的數(shù)據(jù)并行化 ——MoE 層中的每個(gè)專家都被分配到一臺(tái)不同設(shè)備,同時(shí)所有設(shè)備上都重復(fù)配備所有非專家層。

如圖 8a 所示,專家并行化的工作流程是按順序執(zhí)行以下操作:門路由、輸入編碼、All-to-All 調(diào)度、專家計(jì)算、All-to-All 組合、輸出解碼。

圖片

一般來(lái)說(shuō),GEMM 的輸入大小需要足夠大,以便充分利用計(jì)算設(shè)備。因此,要使用輸入編碼將同一個(gè)專家的輸入 token 聚合到連續(xù)的內(nèi)存空間中,這由門路由中的「token - 專家映射」決定。之后,All-to-All 調(diào)度的作用是將輸入 token 分發(fā)給各設(shè)備上對(duì)應(yīng)的專家。之后是專家的本地化計(jì)算。計(jì)算完成后再通過(guò) All-to-All 組合匯總,然后解碼輸出,根據(jù)門控索引恢復(fù)原始數(shù)據(jù)的布局。

此外,也有研究者探索專家并行化與其它已有并行策略(比如張量、管道化、序列并行化)的協(xié)同,以提升 MoE 模型在大規(guī)模分布式環(huán)境中的可擴(kuò)展性和效率。

圖 8 中給出了一些混合并行化示例,包括 (b) 數(shù)據(jù) + 專家 + 張量并行化、(c) 數(shù)據(jù) + 專家 + 管道并行化、(d) 專家 + 張量并行。

需要認(rèn)識(shí)到,計(jì)算效率、通信負(fù)載、內(nèi)存占用之間存在復(fù)雜的相互作用,分布式并行化策略的選擇會(huì)對(duì)其產(chǎn)生影響,并且也會(huì)被不同的硬件配置影響。因此,在部署用于實(shí)際應(yīng)用的策略時(shí),必須細(xì)致地權(quán)衡考慮并針對(duì)具體場(chǎng)景進(jìn)行調(diào)整。

之后,該團(tuán)隊(duì)分計(jì)算、通信和存儲(chǔ)三大板塊介紹了 MoE 模型開(kāi)發(fā)所面臨的系統(tǒng)設(shè)計(jì)難題以及解決這些難題的研究成果,詳見(jiàn)原論文。表 4 給出了開(kāi)源 MoE 框架的概況。

圖片

混合專家的應(yīng)用

在當(dāng)前 Transformer 主導(dǎo)的大型語(yǔ)言模型(LLM)領(lǐng)域,混合專家(MoE)范式頗具吸引力,因?yàn)槠淠茉诓唤o訓(xùn)練和推理階段引入過(guò)大計(jì)算需求的前提下大幅提升模型能力。這類技術(shù)能顯著 LLM 在多種下游任務(wù)上的性能,甚至造就了一些超越人類水平的 AI 應(yīng)用。

有傳言說(shuō)強(qiáng)大如斯的 GPT-4 可能也采用了某種 MoE 架構(gòu) —— 由 8 個(gè) 2200 億參數(shù)的專家構(gòu)成,在多樣化的數(shù)據(jù)集和任務(wù)上完成了訓(xùn)練,并使用了一種 16 次迭代的推理過(guò)程。有關(guān)該傳言的更多詳情可參閱機(jī)器之心報(bào)道《終極「揭秘」:GPT-4 模型架構(gòu)、訓(xùn)練成本、數(shù)據(jù)集信息都被扒出來(lái)了》。

所以,毫不奇怪 MoE 在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、推薦系統(tǒng)和多模態(tài)應(yīng)用中遍地開(kāi)花了。

這些應(yīng)用本質(zhì)上就需要使用條件計(jì)算來(lái)大幅提升模型的參數(shù)量,以此增強(qiáng)模型在固定計(jì)算成本下的性能,或通過(guò)門控機(jī)制實(shí)現(xiàn)動(dòng)態(tài)專家選擇來(lái)實(shí)現(xiàn)高效多任務(wù)學(xué)習(xí)。

該團(tuán)隊(duì)也介紹了這些不同領(lǐng)域的代表性 MoE 應(yīng)用,可幫助讀者理解如何將 MoE 用于具體任務(wù)。詳見(jiàn)原論文。

挑戰(zhàn)與機(jī)遇

混合專家,功能強(qiáng)大,降低成本,提升性能。前景雖好,仍有挑戰(zhàn)。

這一節(jié)中,該團(tuán)隊(duì)梳理了 MoE 相關(guān)的關(guān)鍵性挑戰(zhàn),并指出了有希望獲得重要成果的未來(lái)研究方向。下面簡(jiǎn)要列出了這些挑戰(zhàn)和研究方向,更多詳情請(qǐng)查看原論文。

  • 訓(xùn)練穩(wěn)定性和負(fù)載平衡
  • 可擴(kuò)展性和通信開(kāi)銷
  • 專家的專業(yè)化和協(xié)作
  • 稀疏激活和計(jì)算效率
  • 泛化和穩(wěn)健性
  • 可解釋性和透明性
  • 最優(yōu)的專家架構(gòu)
  • 與現(xiàn)有框架整合


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-01-10 16:01:28

2025-02-17 03:00:00

LLMsMoELLM

2024-08-06 08:16:05

2024-01-10 17:37:17

概率token模型

2023-04-26 11:14:11

IT領(lǐng)導(dǎo)者遠(yuǎn)程工作

2020-02-21 09:00:15

混合云安全公有云

2022-12-06 14:03:43

云采用云遷移

2023-12-21 16:25:23

WeChatSnapchatShopee

2012-08-22 09:42:35

混合云計(jì)算實(shí)施混合云計(jì)算云計(jì)算存儲(chǔ)

2015-05-26 11:32:41

混合云混合云優(yōu)勢(shì)

2015-07-27 11:11:31

混合云混合云管理云服務(wù)

2015-07-10 10:27:05

云技術(shù)混合架構(gòu)認(rèn)知誤區(qū)

2013-08-27 09:24:22

SDN網(wǎng)絡(luò)軟件定義網(wǎng)絡(luò)谷歌SDN

2010-04-19 09:31:44

KDE

2010-08-30 16:14:26

DHCP實(shí)驗(yàn)

2016-09-13 22:28:08

云計(jì)算saaspaas

2022-02-15 10:45:53

混合云云計(jì)算SASE

2024-11-11 13:24:02

2015-03-10 10:13:03

云部署混合云云安全

2015-07-20 10:17:37

云計(jì)算應(yīng)用混合云混合云管理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)