自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全球首次!時(shí)序大模型突破十億參數(shù),華人團(tuán)隊(duì)發(fā)布Time-MoE,預(yù)訓(xùn)練數(shù)據(jù)達(dá)3000億個(gè)時(shí)間點(diǎn)

人工智能
Time-MoE采用了創(chuàng)新的混合專(zhuān)家架構(gòu),能以較低的計(jì)算成本實(shí)現(xiàn)高精度預(yù)測(cè)。研發(fā)團(tuán)隊(duì)還發(fā)布了Time-300B數(shù)據(jù)集,為時(shí)序分析提供了豐富的訓(xùn)練資源,為各行各業(yè)的時(shí)間序列預(yù)測(cè)任務(wù)帶來(lái)了新的解決方案。

在當(dāng)今以數(shù)據(jù)為驅(qū)動(dòng)的時(shí)代,時(shí)序預(yù)測(cè)已成為眾多領(lǐng)域不可或缺的核心組成。然而,構(gòu)建一個(gè)兼具強(qiáng)大性能與高效運(yùn)算的大規(guī)模時(shí)序預(yù)測(cè)模型始終是一個(gè)巨大的挑戰(zhàn)。此外,高質(zhì)量的大型公共時(shí)間序列數(shù)據(jù)庫(kù)的匱乏進(jìn)一步加劇了這一難題。

近日,由來(lái)自普林斯頓大學(xué)、格里菲斯大學(xué)等全球多地的華人國(guó)際科研團(tuán)隊(duì)攜手通力合作,創(chuàng)新性地提出了一種基于混合專(zhuān)家架構(gòu)(Mixture of Experts, MoE)的時(shí)間序列基礎(chǔ)模型Time-MoE,首次將時(shí)間序列預(yù)訓(xùn)練大模型的參數(shù)規(guī)模推向十億級(jí)別,在時(shí)序預(yù)測(cè)領(lǐng)域?qū)崿F(xiàn)了里程碑式的突破。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2409.16040

代碼鏈接:https://github.com/Time-MoE/Time-MoE

與此同時(shí),團(tuán)隊(duì)精心整理了預(yù)訓(xùn)練數(shù)據(jù)集Time-300B,這是目前時(shí)序領(lǐng)域最大的公開(kāi)數(shù)據(jù)集,為各類(lèi)時(shí)序任務(wù)提供了前所未有的通用解決方案。這是首次在時(shí)序領(lǐng)域中采用如此大規(guī)模的預(yù)訓(xùn)練模型,標(biāo)志著時(shí)序預(yù)測(cè)技術(shù)邁入了一個(gè)全新的時(shí)代。

Time-MoE模型通過(guò)MoE架構(gòu)的獨(dú)特優(yōu)勢(shì),將模型參數(shù)成功擴(kuò)展至24億,不僅顯著提升了預(yù)測(cè)精度,還在降低計(jì)算成本的同時(shí)超越了眾多現(xiàn)有模型,全面達(dá)到了SOTA(State of the Art)水平。

關(guān)鍵技術(shù)突破

1. 強(qiáng)大的混合專(zhuān)家架構(gòu):Time-MoE采用稀疏激活機(jī)制,在預(yù)測(cè)任務(wù)中僅激活部分網(wǎng)絡(luò)節(jié)點(diǎn),這不僅確保了高預(yù)測(cè)精度,還顯著降低了計(jì)算負(fù)擔(dān),完美解決了時(shí)序大模型在推理階段的計(jì)算瓶頸。

2. 靈活的預(yù)測(cè)范圍:Time-MoE支持任意長(zhǎng)度的輸入和輸出范圍,能夠處理從短期到長(zhǎng)期的各種時(shí)序預(yù)測(cè)任務(wù),實(shí)現(xiàn)了真正的全域時(shí)序預(yù)測(cè)。

3. 全球最大規(guī)模的開(kāi)源時(shí)序數(shù)據(jù)集:團(tuán)隊(duì)開(kāi)發(fā)了Time-300B數(shù)據(jù)集,涵蓋9個(gè)領(lǐng)域的超過(guò)3000億個(gè)時(shí)間點(diǎn),為模型提供了豐富的多領(lǐng)域訓(xùn)練數(shù)據(jù),確保其在多種任務(wù)中的卓越泛化能力。

圖片圖片

在相同激活參數(shù)條件下,Time-MoE顯著超越了現(xiàn)有的時(shí)序基礎(chǔ)模型。在相同的FLOPs下,其稀疏架構(gòu)展現(xiàn)出相較于密集模型的卓越精度優(yōu)勢(shì)。

模型框架

圖片圖片

輸入Token Embedding

Time-MoE使用逐點(diǎn)分詞方法以確保時(shí)間序列信息的完整性,提高了模型處理不同長(zhǎng)度序列的靈活性與適用性,如模型框架圖中①所示。在②中,SwiGLU激活函數(shù)對(duì)每個(gè)時(shí)間序列點(diǎn)進(jìn)行嵌入,其中包括一個(gè)Feed-forward network (FFN) 和一個(gè)Swish FFN,從而增強(qiáng)模型對(duì)多維輸入的處理能力:

圖片圖片

MoE Transformer模塊 

Time-MoE基于decoder-only Transformer,并結(jié)合了大規(guī)模語(yǔ)言模型中的最新技術(shù)。Transformer模塊里, RMSNorm對(duì)每個(gè)子層輸入進(jìn)行了歸一化處理,從而提升了訓(xùn)練的穩(wěn)定性。

同時(shí),采用旋轉(zhuǎn)位置編碼代替絕對(duì)位置編碼,使得模型在處理可變序列長(zhǎng)度時(shí)具備更好的外推能力。此外,模型引入了稀疏激活的混合專(zhuān)家層來(lái)取代標(biāo)準(zhǔn)Transformer模塊里的FFN。

公式化概括如下:

圖片

其中Mixture代表混合專(zhuān)家層。如模型框架圖中③所示,單個(gè)時(shí)間序列數(shù)據(jù)點(diǎn)可以被分配給一個(gè)或多個(gè)專(zhuān)家。通過(guò)選擇部分專(zhuān)家網(wǎng)絡(luò)來(lái)處理特定時(shí)間點(diǎn)的輸入,模型的計(jì)算效率得到了提高。

圖片

多分辨率預(yù)測(cè)

如模型框架圖中④和⑤所示,Time-MoE設(shè)計(jì)了一種多分辨率預(yù)測(cè)頭,可以同時(shí)進(jìn)行不同尺度的預(yù)測(cè),突破了單一尺度預(yù)測(cè)的局限。

在訓(xùn)練時(shí),不同分辨率頭會(huì)被聯(lián)合優(yōu)化。在與推理時(shí),模型采用貪心算法,利用不同尺度的輸出組合成任意的預(yù)測(cè)長(zhǎng)度。這種設(shè)計(jì)允許模型根據(jù)不同的預(yù)測(cè)范圍進(jìn)行靈活預(yù)測(cè),并在訓(xùn)練過(guò)程中綜合多個(gè)預(yù)測(cè)尺度的誤差來(lái)優(yōu)化模型的泛化能力,從而顯著提升預(yù)測(cè)的準(zhǔn)確性和魯棒性。

實(shí)驗(yàn)效果

1. 零樣本zero-shot預(yù)測(cè)

零樣本預(yù)測(cè)能有效檢驗(yàn)時(shí)序基礎(chǔ)模型的泛化能力和通用性。實(shí)驗(yàn)表明,與現(xiàn)有的時(shí)序基礎(chǔ)模型相比,Time-MoE達(dá)到了最好的預(yù)測(cè)效果,均方誤差(MSE)降低了約20%

圖片圖片

2. 全樣本full-shot預(yù)測(cè)

在全樣本預(yù)測(cè)中,預(yù)訓(xùn)練的Time-MoE會(huì)使用相應(yīng)數(shù)據(jù)的訓(xùn)練集進(jìn)行微調(diào)。實(shí)驗(yàn)表明,與專(zhuān)門(mén)為全樣本預(yù)測(cè)設(shè)計(jì)的時(shí)序模型相比,Time-MoE依然能達(dá)到最優(yōu)的效果, MSE降低了約24%。這體現(xiàn)了模型對(duì)于不同領(lǐng)域數(shù)據(jù)的適用性,以及預(yù)訓(xùn)練基礎(chǔ)模型對(duì)于下游任務(wù)幫助的有效性。

圖片圖片

3. 消融實(shí)驗(yàn)

文中進(jìn)一步提供了一系列消融實(shí)驗(yàn)來(lái)驗(yàn)證模型框架設(shè)計(jì)的合理性。實(shí)驗(yàn)表明,Time-MoE的設(shè)計(jì)在提升模型精度上是有效的。特別地,在不使用混合專(zhuān)家的情況下,模型的MSE會(huì)有明顯的退化。

圖片圖片

4. Scalability分析

作者對(duì)于模型的規(guī)?;ЧM(jìn)行了詳細(xì)分析,如下圖所示。左圖的實(shí)驗(yàn)表明,與稠密模型相比,稀疏模型減少了平均78%的訓(xùn)練成本和39%的推理成本。

右圖的結(jié)果表明,隨著數(shù)據(jù)量和模型參數(shù)的增大,Time-MoE持續(xù)表現(xiàn)出穩(wěn)定的性能提升,并且與同規(guī)模的稠密模型相比,總能達(dá)到更小的MSE和更好的預(yù)測(cè)性能。

此外,作者還分析了訓(xùn)練精度的影響。如下表所示,與使用float32精度進(jìn)行訓(xùn)練相比,使用bfloat16精度能得到相似的預(yù)測(cè)性能,但是bfloat16模型能在訓(xùn)練速度上獲得12%的提升,內(nèi)存占用上有 20%的減少。

圖片圖片

此外,bfloat16還可以與flash-attention(表中簡(jiǎn)稱(chēng)為FA)無(wú)縫結(jié)合,從而進(jìn)一步在訓(xùn)練和推理速度上帶來(lái)23%和19%的提升。

總結(jié)

Time-MoE的成功標(biāo)志著時(shí)序預(yù)測(cè)領(lǐng)域邁入了一個(gè)全新時(shí)代。它不僅在性能上全面超越了現(xiàn)有模型,更為構(gòu)建大規(guī)模、高效、通用的時(shí)序預(yù)測(cè)基礎(chǔ)模型奠定了一個(gè)可行的范式。Time-MoE的發(fā)布不僅為學(xué)術(shù)界開(kāi)辟了全新的研究方向,也為工業(yè)界的多種時(shí)序應(yīng)用場(chǎng)景注入了巨大的潛力。在能源管理、金融預(yù)測(cè)、電商銷(xiāo)量、氣象預(yù)報(bào)等眾多關(guān)鍵領(lǐng)域,Time-MoE將成為企業(yè)和研究機(jī)構(gòu)的強(qiáng)大工具。

團(tuán)隊(duì)成員相關(guān)論文:

[1] Foundation Models for Time Series Analysis: A Tutorial and Survey, KDD 2024.

https://arxiv.org/abs/2403.14735

[2] Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook, arXiv 2023

https://arxiv.org/abs/2310.10196

[3] Position: What Can Large Language Models Tell Us about Time Series Analysis, ICML 2024.

https://arxiv.org/abs/2402.02713

[4] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models, ICLR 2024.

https://arxiv.org/abs/2310.01728

[5] TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting, ICLR 2024.

https://arxiv.org/abs/2405.14616

[6] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting, ICLR 2024.

https://arxiv.org/abs/2310.06625

[7] TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis, arXiv 2024

https://arxiv.org/abs/2410.16032

[8] Towards Neural Scaling Laws for Time Series Foundation Models, arXiv 2024 https://www.arxiv.org/pdf/2410.12360

[9] Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis, NeurIPS 2024.

https://arxiv.org/abs/2406.08627

[10] Time-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting, NeurIPS 2024.

https://arxiv.org/abs/2405.14252

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-11-07 15:10:00

2025-01-06 07:00:00

大模型人工智能LLM

2024-02-06 10:38:10

昆侖萬(wàn)維大模型

2020-11-18 10:29:07

模型人工智能開(kāi)源

2024-03-15 12:49:11

AI模型

2024-05-07 08:04:09

代碼格式化工具

2023-03-23 18:44:07

2024-10-28 22:14:05

2024-01-29 09:40:00

AI訓(xùn)練

2023-07-18 15:05:00

開(kāi)源大模型

2025-03-18 08:00:00

豆包文生圖技術(shù)Seedream

2023-09-25 07:31:19

算力AI框架

2021-08-18 10:09:57

SD-WAN

2024-11-27 14:30:00

模型訓(xùn)練

2022-06-25 21:17:15

人工智能訓(xùn)練

2024-04-11 07:10:59

大語(yǔ)言模型AI人工智能

2024-01-03 18:53:13

語(yǔ)言模型LLM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)