150B token從頭訓(xùn)練,普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory
不同于大多數(shù)模型使用字母縮略起名,論文作者在腳注中解釋道,Lory是一種羽毛有彩虹顏色的鸚鵡,和「軟MoE」的精神非常相似。
論文的作者團隊也可以稱之為「明星陣容」。
論文地址:https://arxiv.org/abs/2405.03133
主要作者之一陳丹琦是普林斯頓大學(xué)計算機科學(xué)系的助理教授,也是普林斯頓NLP小組共同領(lǐng)導(dǎo)人之一。她本科畢業(yè)于清華大學(xué)姚班,2018年在斯坦福大學(xué)獲得博士學(xué)位,導(dǎo)師是大名鼎鼎的Christopher Manning。
斯坦福教授、NLP領(lǐng)域泰斗Dan Jurafsky曾這樣評價她:「她在發(fā)現(xiàn)重要的研究問題上很有品位。她已經(jīng)對該領(lǐng)域產(chǎn)生了非凡的影響,并且她的影響只會越來越大。」
Mike Lewis是Meta AI的一名研究科學(xué)家,他領(lǐng)導(dǎo)了Meta剛發(fā)布的大語言模型Llama 3的預(yù)訓(xùn)練工作。
他此前曾發(fā)表過多項有影響力的研究成果,包括Bart、Roberta、top-k采樣等。
本文的第一作者是普林斯頓大學(xué)五年級博士生鐘澤軒,導(dǎo)師是陳丹琪教授。
鐘澤軒碩士畢業(yè)于伊利諾伊大學(xué)香檳分校,本科畢業(yè)于北京大學(xué)計算機系,曾在Meta AI和微軟亞洲研究院實習(xí),這項研究就是他在Meta實習(xí)期間完成的。
發(fā)布后,論文作者也在推特上提供了全文解讀。
引入的關(guān)鍵技術(shù)包含兩個方面,一是用因果分段路由策略取代token級別的路由,可以在保持語言模型自回歸屬性的同時實現(xiàn)高效的專家合并。
二是提出了基于相似性的數(shù)據(jù)批處理方法,如果僅僅是把隨機選擇的文本拼接在一起訓(xùn)練會導(dǎo)致低水平的專家模型,而將相似的文本進行分組可以使模型更加專業(yè)化。
基于這些方法,作者使用150B token的數(shù)據(jù)從頭訓(xùn)練了一系列的Lory模型,活躍參數(shù)有0.3B和1.5B兩個級別,含有最多32個專家。
與稠密模型相比,Lory的訓(xùn)練過程更為高效,可以用少2.5倍的步數(shù)實現(xiàn)相同的損失值。
研究團隊使用上下文學(xué)習(xí)的方法評估Lory的能力,發(fā)現(xiàn)模型在常識推理、閱讀理解、閉卷問答、文本分類等下游任務(wù)上都取得了很好的效果。
可以觀察到,使用更多專家可以改進模型的表現(xiàn)。
相比目前MoE領(lǐng)域的SOTA模型Expert Choice(EC),Lory模型也表現(xiàn)出了有競爭力的性能。
2023年12月,一家名為Mistral AI的法國創(chuàng)業(yè)公司發(fā)布了一款性能媲美甚至優(yōu)于GPT-3.5和Llama 2 70B的模型Mixtral 8x7B。
Mixtral使用了一種稀疏的MoE網(wǎng)絡(luò),不僅表現(xiàn)出了強大的性能,而且十分高效,推理速度相比Llama 2 70B提高了6倍,于是讓MoE得到了開源社區(qū)的廣泛關(guān)注。
甚至有人猜測,GPT-4可能也使用了MoE技術(shù)實現(xiàn)了超過一萬億參數(shù)的超大模型。
對于Transformer架構(gòu)的語言模型,MoE主要有兩個元素:
一是使用參數(shù)更為稀疏的MoE層代替密集的前饋網(wǎng)絡(luò)層(FFN),其中每個專家都是一個獨立的神經(jīng)網(wǎng)絡(luò),甚至可以是MoE本身,從而形成層級式的MoE結(jié)構(gòu)。
二是使用門控網(wǎng)絡(luò)或路由機制決定token被發(fā)送到哪個專家,其中token的路由機制是決定MoE模型表現(xiàn)的關(guān)鍵點。
因果分段路由
雖然MoE的這種機制有助于高效擴展模型規(guī)模,但訓(xùn)練路由網(wǎng)絡(luò)的過程會引入離散化、不可微的學(xué)習(xí)目標。2023年發(fā)布的SMEAR模型就已經(jīng)開始探索解決方案,使用專家合并方法構(gòu)建完全可微的MoE模型。
論文地址:https://arxiv.org/abs/2306.03745
然而,SMEAR使用的方法是將所有專家進行軟合并,取其加權(quán)平均值,這適用于文本分類任務(wù),但很難應(yīng)用到自回歸語言模型上。
于是,作者提出了使用分段路由的方法,對每一段語句而非每個token進行專家合并,有效減少了合并操作的數(shù)量。
如果僅僅使用當(dāng)前語段進行路由,很可能導(dǎo)致語言模型遺漏跨語段的信息,所以論文提出采用類似于自回歸的因果分段路由。
在為當(dāng)前語段合并專家時,需要考慮前一個語段的信息,從而決定每個專家的路由權(quán)重。
消融實驗的結(jié)果也證明,與因果分段路由的策略相比,單純使用前綴進行路由會導(dǎo)致語言模型性能降低。
基于相似性的數(shù)據(jù)批處理
預(yù)訓(xùn)練語言模型的標準做法是將數(shù)據(jù)集中的文檔隨機拼接在一起,構(gòu)造出固定長度的訓(xùn)練樣本。
對于MoE模型而言,這種方法存在問題,相鄰段的token可能來自非常不同且毫不相關(guān)的文檔,可能會損害專家模型的專業(yè)化程度。
因此,受到ICLR 2024中一篇論文的啟發(fā),作者在Lory中采用了類似的技術(shù),依次連接相似的文檔來構(gòu)造訓(xùn)練樣本,使專家模型更「專注」地研究不同的領(lǐng)域或主題。
論文地址:https://arxiv.org/abs/2310.10638
實驗表明,無論是隨機批處理還是基于相似度批處理,Lory模型的效果都優(yōu)于稠密模型,但使用基于相似度的方法可以得到更大的loss提升。