自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

新視角設(shè)計(jì)下一代時(shí)序基礎(chǔ)模型,Salesforce推出Moirai-MoE

人工智能 新聞
近期,來自 Salesforce、新加坡國(guó)立大學(xué)、香港科技大學(xué)(廣州)的研究者以模型專家化這一全新視角作為抓手,設(shè)計(jì)并提出了下一代時(shí)序預(yù)測(cè)基礎(chǔ)模型 Moirai-MoE。

本文由 Salesforce、新加坡國(guó)立大學(xué)、香港科技大學(xué)(廣州)共同完成。其中,第一作者柳旭是 Salesforce 亞洲研究院實(shí)習(xí)生、新加坡國(guó)立大學(xué)計(jì)算機(jī)學(xué)院四年級(jí)博士生。通訊作者劉成昊是 Salesforce 亞洲研究院高級(jí)科學(xué)家。該工作的短文版本已被 NeurIPS 2024 Workshop on Time Series in the Age of Large Models 接收。

時(shí)間序列預(yù)測(cè)是人類理解物理世界變化的重要一環(huán)。自去年底以來,時(shí)序預(yù)測(cè)領(lǐng)域正在經(jīng)歷重大轉(zhuǎn)型,從傳統(tǒng)的「單一數(shù)據(jù)集訓(xùn)練單一模型」的模式逐步轉(zhuǎn)向「通用預(yù)測(cè)基礎(chǔ)模型」。目前雖然有不少基礎(chǔ)模型已經(jīng)提出,但如何有效地在高度多樣化的時(shí)序數(shù)據(jù)上訓(xùn)練基礎(chǔ)模型仍是一個(gè)開放問題。

近期,來自 Salesforce、新加坡國(guó)立大學(xué)、香港科技大學(xué)(廣州)的研究者以模型專家化這一全新視角作為抓手,設(shè)計(jì)并提出了下一代時(shí)序預(yù)測(cè)基礎(chǔ)模型 Moirai-MoE。該模型將模型專業(yè)化設(shè)計(jì)在 token 這一細(xì)粒度運(yùn)行,并且以完全自動(dòng)的數(shù)據(jù)驅(qū)動(dòng)模式對(duì)其賦能。模型性能方面,不同于僅在少量數(shù)據(jù)集上進(jìn)行評(píng)估的已有時(shí)序基礎(chǔ)模型,Moirai-MoE 在一共 39 個(gè)數(shù)據(jù)集上進(jìn)行了廣泛評(píng)估,充分驗(yàn)證了其優(yōu)越性。

圖片

  • 論文標(biāo)題:Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts
  • 論文地址:https://arxiv.org/abs/2410.10469
  • 代碼倉(cāng)庫(kù):https://github.com/SalesforceAIResearch/uni2ts

研究動(dòng)機(jī)

訓(xùn)練通用基礎(chǔ)模型的一大挑戰(zhàn)在于適應(yīng)時(shí)間序列數(shù)據(jù)的高度異質(zhì)性,這種時(shí)序數(shù)據(jù)的獨(dú)特特性凸顯了設(shè)計(jì)專業(yè)化模塊的必要性?,F(xiàn)有的解決方案主要分為兩種。第一種是通過基于語言的提示來識(shí)別數(shù)據(jù)源,從而實(shí)現(xiàn)非常粗粒度的數(shù)據(jù)集級(jí)別模型專業(yè)化。第二種方案利用了時(shí)序數(shù)據(jù)的頻率這一元特征實(shí)現(xiàn)了更細(xì)粒度的專業(yè)化:該方法為特定頻率設(shè)計(jì)單獨(dú)的輸入 / 輸出投影層,從而實(shí)現(xiàn)特定頻率的模型專業(yè)化。

作者認(rèn)為,這種人為強(qiáng)加的頻率級(jí)專業(yè)化缺乏普適性,并引入了一些局限性。(1)頻率并不總是一個(gè)可靠的指標(biāo),無法有效地捕捉時(shí)序數(shù)據(jù)的真實(shí)結(jié)構(gòu)。如下圖所示,具有不同頻率的時(shí)間序列可以表現(xiàn)出相似的模式,而具有相同頻率的時(shí)間序列可能顯示出多樣且不相關(guān)的模式。這種人為強(qiáng)加的頻率和模式之間的不匹配削弱了模型專業(yè)化的有效性,從而導(dǎo)致性能下降。(2)現(xiàn)實(shí)世界的時(shí)間序列本質(zhì)上是非平穩(wěn)的,即使在單個(gè)時(shí)間序列的短窗口內(nèi)也會(huì)顯示出不同的分布。顯然,頻率級(jí)專業(yè)化的粒度無法捕捉這種程度的多樣性,這凸顯了對(duì)更細(xì)粒度的建模方法的需求。

圖片

為了解決上述問題,作者提出了全新的時(shí)間序列統(tǒng)一訓(xùn)練解決方案 Moirai-MoE,其核心思想是利用單個(gè)輸入 / 輸出投影層,同時(shí)將各種時(shí)間序列模式的建模委托給 Transformer 層中的稀疏混合專家。通過這些設(shè)計(jì),Moirai-MoE 的專業(yè)化以數(shù)據(jù)驅(qū)動(dòng)的方式實(shí)現(xiàn),并在 token 級(jí)別運(yùn)行。

基于稀疏混合專家的時(shí)序基礎(chǔ)模型

Moirai-MoE 構(gòu)建在它的前序工作 Moirai 之上。雖然 Moirai-MoE 繼承了 Moirai 的許多優(yōu)點(diǎn),但其主要改進(jìn)在于:Moirai-MoE 不使用多個(gè)啟發(fā)式定義的輸入 / 輸出投影層來對(duì)具有不同頻率的時(shí)間序列進(jìn)行建模,而是使用單個(gè)輸入 / 輸出投影層,同時(shí)將捕獲不同時(shí)間序列模式的任務(wù)委托給 Transformer 中的稀疏混合專家。此外,Moirai-MoE 提出了一種新型的利用預(yù)訓(xùn)練模型中知識(shí)的門控函數(shù),并采用自回歸的訓(xùn)練目標(biāo)來提高訓(xùn)練效率。下面簡(jiǎn)要介紹 Moirai-MoE 的模塊。

圖片

1. 時(shí)序 Token 構(gòu)造

Moirai-MoE 采用切塊(patching)技術(shù)將時(shí)間序列輸入切成沒有重疊的小塊,而后對(duì)小塊進(jìn)行標(biāo)準(zhǔn)化來緩解分布遷移的問題。為了在自回歸模型中獲取準(zhǔn)確、魯棒的標(biāo)準(zhǔn)化統(tǒng)計(jì)值,作者引入掩蔽率 r 作為超參數(shù),它指定整個(gè)序列中專門用于正則化器計(jì)算的部分,不對(duì)這些 patch 計(jì)算預(yù)測(cè)損失。最后,一個(gè)輸入投影層來負(fù)責(zé)把 patch 投影到和 Transformer 一樣的維度,生成時(shí)序 token。

2. 稀疏混合專家 Transformer

通過用 MoE 層替換 Transformer 的每個(gè) FFN 來建立專家混合層。該 MoE 層由 M 個(gè)專家網(wǎng)絡(luò)和一個(gè)門控函數(shù) G 組成。每個(gè) token 只激活一個(gè)專家子集,從而允許專家專注于不同模式的時(shí)間序列數(shù)據(jù)并確保計(jì)算效率。在 Moirai-MoE 中,作者探索了不同的門控函數(shù)。首先使用的是最流行的線性投影門控函數(shù),它通過一個(gè)線性層來生成專家子集的分配結(jié)果。此外,作者提出了一種新的門控機(jī)制,利用從預(yù)訓(xùn)練模型的 token 表示中得出的聚類中心來指導(dǎo)專家分配。這一方法的動(dòng)機(jī)是,與隨機(jī)初始化的線性投影層相比,預(yù)訓(xùn)練 token 表示的聚類更接近數(shù)據(jù)的真實(shí)分布,可以更有效地實(shí)現(xiàn)模型專業(yè)化。

3. 訓(xùn)練目標(biāo)

為了同時(shí)支持點(diǎn)預(yù)測(cè)和概率預(yù)測(cè)兩種預(yù)測(cè)模式,Moirai-MoE 的訓(xùn)練目標(biāo)設(shè)定為優(yōu)化未來混合分布的對(duì)數(shù)似然函數(shù)。

實(shí)驗(yàn)效果

作者在 39 個(gè)數(shù)據(jù)集上的進(jìn)行了廣泛測(cè)試評(píng)估來驗(yàn)證 Moirai-MoE 的有效性。

圖片

上圖展示了在 Monash 基準(zhǔn)中 29 個(gè)數(shù)據(jù)集上進(jìn)行的分布內(nèi)預(yù)測(cè)評(píng)估。結(jié)果表明,Moirai-MoE 擊敗了所有競(jìng)爭(zhēng)對(duì)手。相比前序工作 Moirai,Moirai-MoE 的提升幅度達(dá)到了 19%。與 Moirai 無法超越的基礎(chǔ)模型 Chronos 相比,Moirai-MoE 成功彌補(bǔ)了差距,并相比它少 65 倍激活參數(shù),這帶來了巨大的推理速度的優(yōu)勢(shì)。

圖片

上表展示了在零樣本預(yù)測(cè)設(shè)定時(shí),Moirai-MoE 在 10 個(gè)數(shù)據(jù)集上的點(diǎn)預(yù)測(cè)和概率預(yù)測(cè)的表現(xiàn)。Moirai-MoE-Base 取得了最佳的零樣本性能,甚至超越了 Google 的 TimesFM 和 Amazon 的 Chronos(他們?cè)陬A(yù)訓(xùn)練語料庫(kù)中已包含了部分評(píng)估數(shù)據(jù),因此存在數(shù)據(jù)泄露)。與所有規(guī)模的 Moirai 相比,Moirai-MoE-Small 在 CRPS 方面提高了 3%-14%,在 MASE 方面提高了 8%-16%??紤]到 Moirai-MoE-Small 只有 11M 激活參數(shù)(比 Moirai-Large 少 28 倍),這些進(jìn)步是非常顯著的。

圖片

在這篇研究中,作者還對(duì)時(shí)序 MoE 基礎(chǔ)模型的內(nèi)部工作機(jī)制進(jìn)行了首次探索。上圖是對(duì) Moirai-MoE 的專家分配分布進(jìn)行的可視化?;诖?,作者總結(jié)了以下觀點(diǎn):

1. 在淺層中,不同頻率的數(shù)據(jù)在專家選擇的分布上呈現(xiàn)多樣化。隨著層數(shù)的加深,模型將重點(diǎn)轉(zhuǎn)移到更通用的時(shí)間依賴性,例如更廣泛的趨勢(shì)和長(zhǎng)期模式,這些依賴性可以在不同頻率之間共享。到最后一層(第 6 層),專家分配在所有頻率上變得幾乎相同,表明模型已將時(shí)間序列抽象為與頻率基本無關(guān)的高級(jí)表示。這一證據(jù)表明 Moirai-MoE 學(xué)習(xí)到了頻率不變的隱層表示,這對(duì)于模型泛化至關(guān)重要。

2. 隨著層數(shù)增加專家選擇逐漸收斂的行為與 Large Language Models 中觀察到的模式完全相反。這種分歧可能源于時(shí)間序列 token 的動(dòng)態(tài)和噪聲特性,它們是由小時(shí)間窗口生成的,不像從固定詞匯表中派生的語言 token。研究結(jié)果表明,隨著層數(shù)增加,模型實(shí)際上是在進(jìn)行逐步去噪過程。這一觀察結(jié)果與 GPT4TS 的結(jié)論一致:隨著層深度增加,token 會(huì)被投影到輸入的低維頂部特征向量空間中。

更多實(shí)驗(yàn)結(jié)果,可參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2013-07-27 21:28:44

2010-12-10 09:45:46

SalesforceRuby云計(jì)算語言

2013-06-27 11:21:17

2015-03-09 14:24:59

TeradataAppCenterAster

2025-03-25 10:54:08

2010-05-12 17:05:07

2020-09-27 17:27:58

邊緣計(jì)算云計(jì)算技術(shù)

2013-05-21 13:04:45

云計(jì)算網(wǎng)絡(luò)融合

2025-01-03 09:24:10

模型架構(gòu)論文

2020-09-16 10:28:54

邊緣計(jì)算云計(jì)算數(shù)據(jù)中心

2016-01-26 11:58:12

2017-11-13 15:25:02

2018-09-25 07:00:50

2018-09-27 18:47:45

AIOpsDevOps

2009-01-11 10:13:39

Stripes開發(fā)框架JSP

2009-04-06 08:42:18

Firefox瀏覽器

2012-10-29 12:23:44

BYODIT

2014-05-09 13:18:54

iOS移動(dòng)互聯(lián)網(wǎng)

2013-07-27 21:41:14

APT攻擊下一代威脅

2022-07-06 11:38:40

人工智能AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)