自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

150B token從頭訓(xùn)練，普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory

作者：新智元 2024-05-20 15:19:25

人工智能新聞

前幾天，普林斯頓大學(xué)聯(lián)合Meta在arXiv上發(fā)表了他們最新的研究成果——Lory模型，論文提出構(gòu)建完全可微的MoE模型，是一種預(yù)訓(xùn)練自回歸語言模型的新方法。

不同于大多數(shù)模型使用字母縮略起名，論文作者在腳注中解釋道，Lory是一種羽毛有彩虹顏色的鸚鵡，和「軟MoE」的精神非常相似。

論文的作者團隊也可以稱之為「明星陣容」。

論文地址：https://arxiv.org/abs/2405.03133

主要作者之一陳丹琦是普林斯頓大學(xué)計算機科學(xué)系的助理教授，也是普林斯頓NLP小組共同領(lǐng)導(dǎo)人之一。她本科畢業(yè)于清華大學(xué)姚班，2018年在斯坦福大學(xué)獲得博士學(xué)位，導(dǎo)師是大名鼎鼎的Christopher Manning。

斯坦福教授、NLP領(lǐng)域泰斗Dan Jurafsky曾這樣評價她：「她在發(fā)現(xiàn)重要的研究問題上很有品位。她已經(jīng)對該領(lǐng)域產(chǎn)生了非凡的影響，并且她的影響只會越來越大。」

Mike Lewis是Meta AI的一名研究科學(xué)家，他領(lǐng)導(dǎo)了Meta剛發(fā)布的大語言模型Llama 3的預(yù)訓(xùn)練工作。

他此前曾發(fā)表過多項有影響力的研究成果，包括Bart、Roberta、top-k采樣等。

本文的第一作者是普林斯頓大學(xué)五年級博士生鐘澤軒，導(dǎo)師是陳丹琪教授。

鐘澤軒碩士畢業(yè)于伊利諾伊大學(xué)香檳分校，本科畢業(yè)于北京大學(xué)計算機系，曾在Meta AI和微軟亞洲研究院實習(xí)，這項研究就是他在Meta實習(xí)期間完成的。

發(fā)布后，論文作者也在推特上提供了全文解讀。

引入的關(guān)鍵技術(shù)包含兩個方面，一是用因果分段路由策略取代token級別的路由，可以在保持語言模型自回歸屬性的同時實現(xiàn)高效的專家合并。

二是提出了基于相似性的數(shù)據(jù)批處理方法，如果僅僅是把隨機選擇的文本拼接在一起訓(xùn)練會導(dǎo)致低水平的專家模型，而將相似的文本進行分組可以使模型更加專業(yè)化。

基于這些方法，作者使用150B token的數(shù)據(jù)從頭訓(xùn)練了一系列的Lory模型，活躍參數(shù)有0.3B和1.5B兩個級別，含有最多32個專家。

與稠密模型相比，Lory的訓(xùn)練過程更為高效，可以用少2.5倍的步數(shù)實現(xiàn)相同的損失值。

研究團隊使用上下文學(xué)習(xí)的方法評估Lory的能力，發(fā)現(xiàn)模型在常識推理、閱讀理解、閉卷問答、文本分類等下游任務(wù)上都取得了很好的效果。

可以觀察到，使用更多專家可以改進模型的表現(xiàn)。

相比目前MoE領(lǐng)域的SOTA模型Expert Choice（EC），Lory模型也表現(xiàn)出了有競爭力的性能。

2023年12月，一家名為Mistral AI的法國創(chuàng)業(yè)公司發(fā)布了一款性能媲美甚至優(yōu)于GPT-3.5和Llama 2 70B的模型Mixtral 8x7B。

Mixtral使用了一種稀疏的MoE網(wǎng)絡(luò)，不僅表現(xiàn)出了強大的性能，而且十分高效，推理速度相比Llama 2 70B提高了6倍，于是讓MoE得到了開源社區(qū)的廣泛關(guān)注。

甚至有人猜測，GPT-4可能也使用了MoE技術(shù)實現(xiàn)了超過一萬億參數(shù)的超大模型。

對于Transformer架構(gòu)的語言模型，MoE主要有兩個元素：

一是使用參數(shù)更為稀疏的MoE層代替密集的前饋網(wǎng)絡(luò)層（FFN），其中每個專家都是一個獨立的神經(jīng)網(wǎng)絡(luò)，甚至可以是MoE本身，從而形成層級式的MoE結(jié)構(gòu)。

二是使用門控網(wǎng)絡(luò)或路由機制決定token被發(fā)送到哪個專家，其中token的路由機制是決定MoE模型表現(xiàn)的關(guān)鍵點。

因果分段路由

雖然MoE的這種機制有助于高效擴展模型規(guī)模，但訓(xùn)練路由網(wǎng)絡(luò)的過程會引入離散化、不可微的學(xué)習(xí)目標。2023年發(fā)布的SMEAR模型就已經(jīng)開始探索解決方案，使用專家合并方法構(gòu)建完全可微的MoE模型。

論文地址：https://arxiv.org/abs/2306.03745

然而，SMEAR使用的方法是將所有專家進行軟合并，取其加權(quán)平均值，這適用于文本分類任務(wù)，但很難應(yīng)用到自回歸語言模型上。

于是，作者提出了使用分段路由的方法，對每一段語句而非每個token進行專家合并，有效減少了合并操作的數(shù)量。

如果僅僅使用當(dāng)前語段進行路由，很可能導(dǎo)致語言模型遺漏跨語段的信息，所以論文提出采用類似于自回歸的因果分段路由。

在為當(dāng)前語段合并專家時，需要考慮前一個語段的信息，從而決定每個專家的路由權(quán)重。

消融實驗的結(jié)果也證明，與因果分段路由的策略相比，單純使用前綴進行路由會導(dǎo)致語言模型性能降低。

基于相似性的數(shù)據(jù)批處理

預(yù)訓(xùn)練語言模型的標準做法是將數(shù)據(jù)集中的文檔隨機拼接在一起，構(gòu)造出固定長度的訓(xùn)練樣本。

對于MoE模型而言，這種方法存在問題，相鄰段的token可能來自非常不同且毫不相關(guān)的文檔，可能會損害專家模型的專業(yè)化程度。

因此，受到ICLR 2024中一篇論文的啟發(fā)，作者在Lory中采用了類似的技術(shù)，依次連接相似的文檔來構(gòu)造訓(xùn)練樣本，使專家模型更「專注」地研究不同的領(lǐng)域或主題。

論文地址：https://arxiv.org/abs/2310.10638

實驗表明，無論是隨機批處理還是基于相似度批處理，Lory模型的效果都優(yōu)于稠密模型，但使用基于相似度的方法可以得到更大的loss提升。

責(zé)任編輯：張燕妮來源：新智元

訓(xùn)練模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<bdo id="kozi0"></bdo>

^{<thead id="kozi0"></thead>}

^{<sub id="kozi0"></sub>}