自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

150B token從頭訓(xùn)練,普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory

人工智能 新聞
前幾天,普林斯頓大學(xué)聯(lián)合Meta在arXiv上發(fā)表了他們最新的研究成果——Lory模型,論文提出構(gòu)建完全可微的MoE模型,是一種預(yù)訓(xùn)練自回歸語言模型的新方法。

不同于大多數(shù)模型使用字母縮略起名,論文作者在腳注中解釋道,Lory是一種羽毛有彩虹顏色的鸚鵡,和「軟MoE」的精神非常相似。

圖片

論文的作者團隊也可以稱之為「明星陣容」。

圖片論文地址:https://arxiv.org/abs/2405.03133

主要作者之一陳丹琦是普林斯頓大學(xué)計算機科學(xué)系的助理教授,也是普林斯頓NLP小組共同領(lǐng)導(dǎo)人之一。她本科畢業(yè)于清華大學(xué)姚班,2018年在斯坦福大學(xué)獲得博士學(xué)位,導(dǎo)師是大名鼎鼎的Christopher Manning。

斯坦福教授、NLP領(lǐng)域泰斗Dan Jurafsky曾這樣評價她:「她在發(fā)現(xiàn)重要的研究問題上很有品位。她已經(jīng)對該領(lǐng)域產(chǎn)生了非凡的影響,并且她的影響只會越來越大。」

圖片

Mike Lewis是Meta AI的一名研究科學(xué)家,他領(lǐng)導(dǎo)了Meta剛發(fā)布的大語言模型Llama 3的預(yù)訓(xùn)練工作。

圖片

他此前曾發(fā)表過多項有影響力的研究成果,包括Bart、Roberta、top-k采樣等。

本文的第一作者是普林斯頓大學(xué)五年級博士生鐘澤軒,導(dǎo)師是陳丹琪教授。

圖片

鐘澤軒碩士畢業(yè)于伊利諾伊大學(xué)香檳分校,本科畢業(yè)于北京大學(xué)計算機系,曾在Meta AI和微軟亞洲研究院實習(xí),這項研究就是他在Meta實習(xí)期間完成的。

發(fā)布后,論文作者也在推特上提供了全文解讀。

圖片

引入的關(guān)鍵技術(shù)包含兩個方面,一是用因果分段路由策略取代token級別的路由,可以在保持語言模型自回歸屬性的同時實現(xiàn)高效的專家合并。

二是提出了基于相似性的數(shù)據(jù)批處理方法,如果僅僅是把隨機選擇的文本拼接在一起訓(xùn)練會導(dǎo)致低水平的專家模型,而將相似的文本進行分組可以使模型更加專業(yè)化。

圖片

基于這些方法,作者使用150B token的數(shù)據(jù)從頭訓(xùn)練了一系列的Lory模型,活躍參數(shù)有0.3B和1.5B兩個級別,含有最多32個專家。

與稠密模型相比,Lory的訓(xùn)練過程更為高效,可以用少2.5倍的步數(shù)實現(xiàn)相同的損失值。

研究團隊使用上下文學(xué)習(xí)的方法評估Lory的能力,發(fā)現(xiàn)模型在常識推理、閱讀理解、閉卷問答、文本分類等下游任務(wù)上都取得了很好的效果。

可以觀察到,使用更多專家可以改進模型的表現(xiàn)。

相比目前MoE領(lǐng)域的SOTA模型Expert Choice(EC),Lory模型也表現(xiàn)出了有競爭力的性能。

2023年12月,一家名為Mistral AI的法國創(chuàng)業(yè)公司發(fā)布了一款性能媲美甚至優(yōu)于GPT-3.5和Llama 2 70B的模型Mixtral 8x7B。

Mixtral使用了一種稀疏的MoE網(wǎng)絡(luò),不僅表現(xiàn)出了強大的性能,而且十分高效,推理速度相比Llama 2 70B提高了6倍,于是讓MoE得到了開源社區(qū)的廣泛關(guān)注。

甚至有人猜測,GPT-4可能也使用了MoE技術(shù)實現(xiàn)了超過一萬億參數(shù)的超大模型。

對于Transformer架構(gòu)的語言模型,MoE主要有兩個元素:

一是使用參數(shù)更為稀疏的MoE層代替密集的前饋網(wǎng)絡(luò)層(FFN),其中每個專家都是一個獨立的神經(jīng)網(wǎng)絡(luò),甚至可以是MoE本身,從而形成層級式的MoE結(jié)構(gòu)。

二是使用門控網(wǎng)絡(luò)或路由機制決定token被發(fā)送到哪個專家,其中token的路由機制是決定MoE模型表現(xiàn)的關(guān)鍵點。

因果分段路由

雖然MoE的這種機制有助于高效擴展模型規(guī)模,但訓(xùn)練路由網(wǎng)絡(luò)的過程會引入離散化、不可微的學(xué)習(xí)目標。2023年發(fā)布的SMEAR模型就已經(jīng)開始探索解決方案,使用專家合并方法構(gòu)建完全可微的MoE模型。

論文地址:https://arxiv.org/abs/2306.03745

然而,SMEAR使用的方法是將所有專家進行軟合并,取其加權(quán)平均值,這適用于文本分類任務(wù),但很難應(yīng)用到自回歸語言模型上。

于是,作者提出了使用分段路由的方法,對每一段語句而非每個token進行專家合并,有效減少了合并操作的數(shù)量。

如果僅僅使用當(dāng)前語段進行路由,很可能導(dǎo)致語言模型遺漏跨語段的信息,所以論文提出采用類似于自回歸的因果分段路由。

在為當(dāng)前語段合并專家時,需要考慮前一個語段的信息,從而決定每個專家的路由權(quán)重。

消融實驗的結(jié)果也證明,與因果分段路由的策略相比,單純使用前綴進行路由會導(dǎo)致語言模型性能降低。

基于相似性的數(shù)據(jù)批處理

預(yù)訓(xùn)練語言模型的標準做法是將數(shù)據(jù)集中的文檔隨機拼接在一起,構(gòu)造出固定長度的訓(xùn)練樣本。

對于MoE模型而言,這種方法存在問題,相鄰段的token可能來自非常不同且毫不相關(guān)的文檔,可能會損害專家模型的專業(yè)化程度。

因此,受到ICLR 2024中一篇論文的啟發(fā),作者在Lory中采用了類似的技術(shù),依次連接相似的文檔來構(gòu)造訓(xùn)練樣本,使專家模型更「專注」地研究不同的領(lǐng)域或主題。

論文地址:https://arxiv.org/abs/2310.10638

實驗表明,無論是隨機批處理還是基于相似度批處理,Lory模型的效果都優(yōu)于稠密模型,但使用基于相似度的方法可以得到更大的loss提升。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2012-08-02 16:18:10

普林斯頓結(jié)構(gòu)哈佛結(jié)構(gòu)架構(gòu)

2011-04-22 10:14:34

無線網(wǎng)絡(luò)DHCPAndroid

2022-07-26 09:56:48

模型AI

2024-11-12 13:40:00

2023-11-17 23:05:18

數(shù)據(jù)模型

2020-12-02 10:05:26

AI 數(shù)據(jù)人工智能

2024-10-28 22:14:05

2023-12-05 13:25:00

數(shù)據(jù)訓(xùn)練

2021-11-09 09:52:57

神經(jīng)網(wǎng)絡(luò)AI算法

2023-09-12 14:45:18

2023-10-23 13:23:03

數(shù)據(jù)訓(xùn)練

2023-06-19 09:36:16

AI矩陣

2024-06-04 14:06:00

2023-07-03 16:32:10

計算機模型

2025-02-13 08:30:00

2024-02-19 00:15:39

模型數(shù)據(jù)

2023-05-22 15:17:02

谷歌AI

2024-09-25 14:41:15

2025-02-14 10:23:00

LLM模型谷歌

2023-09-18 11:25:00

點贊
收藏

51CTO技術(shù)棧公眾號