自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

混合專家系統(tǒng)里根本沒專家？開源MoE模型論文引網(wǎng)友熱議

2024-01-10 17:37:17

開發(fā) 前端

作者比較了模型針對相鄰token選擇相同專家的概率，包括第一選擇一致率和第一二選擇一致率。第一二選擇一致是指，模型針對兩個token分別做出的第一和第二選擇，只要存在交集即視為一致。

紅極一時的開源MoE模型Mixtral，論文終于新鮮出爐！

除了披露了更多技術(shù)細節(jié)，論文中還有一個結(jié)論引發(fā)了熱烈討論——

研究人員本想研究Mixtral是怎么根據(jù)話題分配專家的，結(jié)果發(fā)現(xiàn)專家的分配……和話題好像沒什么關(guān)系。

圖片

而在大多數(shù)人的印象中，Mixtral里的8個專家，是分別負責處理不同領域的話題的……

論文的結(jié)論曝光后，不少網(wǎng)友開始認為“專家混合”這個說法，可能不那么貼切了：

圖片

于是，針對Mixtral真實的工作機制，有網(wǎng)友給出了這樣的比喻：

所以，比起“專家的組合”，這樣的工作方式更像是一種硬盤陣列或者負載均衡？

圖片

但也有網(wǎng)友表示了不同意見：

這個問題并不根屬于MoE，因為自己之前見過的MoE模型中，是發(fā)現(xiàn)了真·專家分工的現(xiàn)象的。

圖片

那么，這究竟是怎么一回事呢？

實驗未發(fā)現(xiàn)專家按領域分布

在訓練過程中，作者觀察了Mixtral中是否有一些專家會針對某些特定領域進行專門化。

具體來說，作者計算了第0、15、31層在The Pile驗證集的不同子集（包含不同領域的文檔）上被選中的專家分布。

這些子集包括LaTeX格式的arXiv論文、生物學論文（PubMed摘要）、哲學論文（PhilPapers）和GitHub代碼等。

結(jié)果發(fā)現(xiàn)，對這幾個層而言，除了數(shù)學領域（DM Mathematics）數(shù)據(jù)集的專家選擇略有不同外，其余數(shù)據(jù)集的專家分布都非常類似，并沒有體現(xiàn)出領域間有什么差別。

圖片

而在數(shù)學問題上出現(xiàn)不同表現(xiàn)的原因，可能是由于其具有相對特殊的語法結(jié)構(gòu)，進一步的探究也證實了這一想法。

他們發(fā)現(xiàn)，專家選擇會被句子的語法結(jié)構(gòu)所影響，一些語法關(guān)鍵詞，比如英語中的“Question”或者代碼中的“self”，被分配到相同的專家的概率非常大。

圖片

此外，定量的分析結(jié)果還發(fā)現(xiàn)了另一個專家分配規(guī)律——相鄰的token有很大概率被分配給同一專家。

作者比較了模型針對相鄰token選擇相同專家的概率，包括第一選擇一致率和第一二選擇一致率。

第一二選擇一致是指，模型針對兩個token分別做出的第一和第二選擇，只要存在交集即視為一致。

（比如第一個token的第一、二專家為分別為甲、乙，第二個token的第一、二專家分別為乙、丙，因為都包含了乙，就是一種第一二選擇一致的情況）

因Mixtral中有8個專家，因此在全隨機的選擇方式下，第一選擇一致率應為12.5%（1/8），第一二選擇一致率應為1 - (6/8) × (5/7)，約為46%。

但實際測試發(fā)現(xiàn)，Mixtral第一和第一二選擇一致率高于隨機情況，特別是中間的第15層，說明了模型在專家選擇上是具有傾向性的。

圖片

論文地址：https://arxiv.org/abs/2401.04088

責任編輯：武曉燕來源：量子位

概率 token 模型

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營