自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

普林斯頓大學(xué)提出首個(gè)基于MoE的稀疏時(shí)序預(yù)測大模型,參數(shù)量擴(kuò)展到2.4billion

發(fā)布于 2024-9-29 15:24
瀏覽
0收藏

今天給大家介紹一篇普林斯頓大學(xué)提出的時(shí)間序列大模型工作,是首個(gè)基于MoE的百萬級(jí)別參數(shù)時(shí)間序列大模型,將時(shí)序大模型參數(shù)量擴(kuò)展到2.4billion的水平,在多個(gè)數(shù)據(jù)集上取得了顯著優(yōu)于其他時(shí)間序列大模型的效果。

普林斯頓大學(xué)提出首個(gè)基于MoE的稀疏時(shí)序預(yù)測大模型,參數(shù)量擴(kuò)展到2.4billion-AI.x社區(qū)

論文標(biāo)題:TIME-MOE: BILLION-SCALE TIME SERIES FOUNDATION MODELS WITH MIXTURE OF EXPERTS

下載地址:https://arxiv.org/pdf/2409.16040v1

1、背景

時(shí)間序列大模型是目前的一個(gè)研究熱點(diǎn),很多工作都利用大量的時(shí)間序列數(shù)據(jù)訓(xùn)練專屬于時(shí)間序列領(lǐng)域的大模型。但是,仍然有很多大模型領(lǐng)域的研究問題在時(shí)間序列大模型領(lǐng)域中沒有得到深入研究。例如大模型中已經(jīng)有一些基于MoE的稀疏模型結(jié)構(gòu)取得顯著效果,但是在時(shí)間序列領(lǐng)域還沒有這方面研究。此外,時(shí)間序列大模型也面臨著靈活性、可擴(kuò)展性等問題。

為了解決這些問題,本文提出基于MoE的稀疏時(shí)間序列大模型,將參數(shù)量擴(kuò)展到例2.4billion,取得了顯著的效果提升。下面介紹一篇Time-MoE的模型結(jié)構(gòu)。

2、建模方法

Time-MoE主要包括4個(gè)核心模塊:輸入Embedding處理、MoE結(jié)構(gòu)、多分辨率建模、訓(xùn)練數(shù)據(jù)和損失函數(shù)。

在輸入Embedding的處理上,區(qū)別于現(xiàn)在主流的PatchTST等patch粒度的時(shí)序建模方法(滑動(dòng)窗口劃分子序列過MLP生成Embedding),Time-MoE采用了點(diǎn)維度的Embedding生成方法,以最大程度保留完整的時(shí)序信息輸入后續(xù)模型。時(shí)間序列中的每個(gè)數(shù)據(jù)點(diǎn),通過SwiGLU生成Embedding。SwiGLU是目前LLaMa等大語言模型的Embedding生成網(wǎng)絡(luò)結(jié)構(gòu),通過門控的形式實(shí)現(xiàn)對(duì)輸入信息的選擇,這里將其應(yīng)用到時(shí)間序列領(lǐng)域。GLU和UYSwiGLU的計(jì)算公式如下:

普林斯頓大學(xué)提出首個(gè)基于MoE的稀疏時(shí)序預(yù)測大模型,參數(shù)量擴(kuò)展到2.4billion-AI.x社區(qū)

在MoE結(jié)構(gòu)上,Time-MoE采用MoE的結(jié)構(gòu)構(gòu)建稀疏網(wǎng)絡(luò)。整體模型結(jié)構(gòu)是一個(gè)Decoder-only的生成式Transfomrer結(jié)構(gòu)。將每一個(gè)FFN層替換成一個(gè)MoE網(wǎng)絡(luò),實(shí)現(xiàn)這部分的稀疏結(jié)構(gòu),這也是語言模型中的一種稀疏化方法的引入。每個(gè)時(shí)間序列數(shù)據(jù)點(diǎn)會(huì)根據(jù)一個(gè)router進(jìn)行各個(gè)專家的選擇,找到相應(yīng)FFN子網(wǎng)絡(luò)進(jìn)行前向傳播。

在多分辨率建模上,Time-MoE使用多個(gè)不同的輸出頭,每個(gè)輸出頭對(duì)應(yīng)一個(gè)分辨率的預(yù)測結(jié)果,實(shí)現(xiàn)多分辨率的同時(shí)預(yù)測。

普林斯頓大學(xué)提出首個(gè)基于MoE的稀疏時(shí)序預(yù)測大模型,參數(shù)量擴(kuò)展到2.4billion-AI.x社區(qū)

在訓(xùn)練過程中,文中構(gòu)建了包括9個(gè)domain、300billion的時(shí)間序列樣本點(diǎn)的數(shù)據(jù)集。損失函數(shù)使用Huber loss,這是一種MSE和MAE的融合體,用來緩解MAE對(duì)于異常點(diǎn)的敏感性。同時(shí),為了防止MoE的門權(quán)重都集中在少量專家上,引入復(fù)雜均衡的損失函數(shù),控制各個(gè)門的樣本點(diǎn)分配比例,防止贏者通吃現(xiàn)象的發(fā)生。

3、實(shí)驗(yàn)效果

文中在多個(gè)數(shù)據(jù)集上對(duì)比了各類時(shí)間序列大模型的效果,Time-MoE取得了顯著效果提升。

普林斯頓大學(xué)提出首個(gè)基于MoE的稀疏時(shí)序預(yù)測大模型,參數(shù)量擴(kuò)展到2.4billion-AI.x社區(qū)

通過對(duì)比模型激活參數(shù)量、不同參數(shù)量下模型效果等方面,可以看出在相同參數(shù)量下,本文提出的Tim-MoE取得了比較顯著的效果提升。

普林斯頓大學(xué)提出首個(gè)基于MoE的稀疏時(shí)序預(yù)測大模型,參數(shù)量擴(kuò)展到2.4billion-AI.x社區(qū)

對(duì)比Time-MoE和其他模型的預(yù)測case效果,可以看出Time-MoE的預(yù)測結(jié)果明顯優(yōu)于其他方法。

普林斯頓大學(xué)提出首個(gè)基于MoE的稀疏時(shí)序預(yù)測大模型,參數(shù)量擴(kuò)展到2.4billion-AI.x社區(qū)

本文轉(zhuǎn)載自??圓圓的算法筆記??,作者: Fareise ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦