谷歌開源TimesFM:1000億個時間點訓(xùn)練,入選ICML 2024
今年2月,Google Research的研究人員提出了一個時序預(yù)測基礎(chǔ)模型TimesFM,在1000億個「真實世界時間點」上進(jìn)行預(yù)訓(xùn)練,僅僅用200M的參數(shù)規(guī)模就展現(xiàn)出了超強(qiáng)的零樣本學(xué)習(xí)能力。
論文鏈接:??https://arxiv.org/pdf/2310.10688.pdf??
當(dāng)時權(quán)重還沒有發(fā)布,就已經(jīng)有人在Reddit社區(qū)中表達(dá)了難以克制的興奮。
5月8日,這篇研究又掀起了一陣波瀾。
官方博客宣布這篇文章被ICML 2024接收,而且在GitHub和HuggingFace上公開了源代碼和模型權(quán)重。
開源后的短短幾天內(nèi),GitHub上項目標(biāo)星數(shù)已經(jīng)達(dá)到了1.5k。
DeepMind首席科學(xué)家Jeff Dean轉(zhuǎn)發(fā)了官方推特,為TimesFM的研究成果背書。
在官宣的消息下面,網(wǎng)友們紛紛為谷歌這波公開模型的操作點贊:
「非常酷,希望大多數(shù)公司經(jīng)常做這樣的事。」
「非常高興看到谷歌擁抱開源模型和HuggingFace社區(qū)?!?/p>
也有網(wǎng)友稱贊TimesFM的零樣本表現(xiàn)。
讓時序模型實現(xiàn)「零樣本」預(yù)測
時間序列預(yù)測在零售、金融、制造業(yè)、醫(yī)療保健和自然科學(xué)等各個領(lǐng)域無處不在,比如預(yù)測股市、降雨量、流感病例、GDP等各種各樣的指標(biāo),是一種「基于過去預(yù)測未來」的科學(xué)。
然而,時序預(yù)測并不是一件容易的事,模型需要處理各種復(fù)雜且動態(tài)的模式,比如循環(huán)周期、季節(jié)性、頻率、趨勢、異常值、噪音等等。
傳統(tǒng)的深度學(xué)習(xí)方法需要大量數(shù)據(jù)和領(lǐng)域知識,卻只能針對特定的任務(wù)和數(shù)據(jù)集對模型進(jìn)行訓(xùn)練和微調(diào)。
與此同時,如ChatGPT等模型的問世讓我們看到了LLM超強(qiáng)的零樣本學(xué)習(xí)能力,只需要給出提示,不需要進(jìn)一步訓(xùn)練或微調(diào)即可讓模型完成各種類型的語言任務(wù)。
這就引出了一個問題:時間序列的基礎(chǔ)模型能否像自然語言一樣存在?在大量時間序列數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的大模型,能否像在大量語料上訓(xùn)練過的GPT一樣,對未見數(shù)據(jù)進(jìn)行準(zhǔn)確預(yù)測?
這就是谷歌研究人員聲稱要讓TimesFM實現(xiàn)的目標(biāo)。
「類GPT」架構(gòu)
相比非常容易大量爬取的文本數(shù)據(jù),時間序列方面的公共數(shù)據(jù)集非常稀缺。而且為了訓(xùn)練通用的時序模型,數(shù)據(jù)集中應(yīng)該包含大量的(百萬級別)來自各種領(lǐng)域的多樣化數(shù)據(jù),且有不同的時間粒度,比如每小時、每日、每周等。
TimesFM的研究團(tuán)隊設(shè)法從三個特別渠道找到了這樣的時序數(shù)據(jù):
- Google Trends中的隨時間變化的搜索興趣重新調(diào)整為時間序列
- Wikipedia頁面每小時瀏覽量隨時間變化的數(shù)據(jù)
- 合成數(shù)據(jù):使用傳統(tǒng)的ARMA流程創(chuàng)建數(shù)據(jù)集
通過大量的數(shù)據(jù)集創(chuàng)建和評估工作,他們得到了包含1000億個數(shù)據(jù)點的數(shù)據(jù)集。
雖然和Llama含有1T token的語料庫依舊存在一定差距,但在時序預(yù)測領(lǐng)域是前所未有的大規(guī)模數(shù)據(jù)集。
在模型架構(gòu)方面,TimesFM的靈感來自于Vision Transformer(ViT)和GPT,采用了decoder-only架構(gòu),主要由三個部分組成:輸入編碼器、解碼器和輸出解碼器。
對于輸入數(shù)據(jù)的表達(dá),同時借鑒了計算機(jī)視覺中的patch以及自然語言中的token兩個概念。
輸入的時間序列數(shù)據(jù)會先被輸入編碼器表示為token,再被分割為許多相同長度的patch,再將每個patch映射為作為模型輸入的token。
解碼器是模型的核心組件,應(yīng)用了自注意力和位置編碼機(jī)制,讓模型可以學(xué)習(xí)序列中不同token之間的依賴關(guān)系。最后,輸出解碼器將輸出token映射為最終的預(yù)測。
而且,TimesFM的關(guān)鍵功能之一是,它可以生成可變長度的輸出token,這意味著模型可以預(yù)測任意數(shù)量的未來時間點,而不需要任何重新訓(xùn)練或微調(diào)。這是通過在模型輸入中加入預(yù)測長度(PL)token實現(xiàn)的。
預(yù)測結(jié)果媲美監(jiān)督學(xué)習(xí)
研究人員使用Monash Forecasting Archive來評估TimesFM的「開箱即用」性能,該數(shù)據(jù)集包含來自各個領(lǐng)域的數(shù)萬個時間序列,如交通、天氣和需求預(yù)測,覆蓋頻率從幾分鐘到每年的數(shù)據(jù)。
可以看到,zero-shot(ZS)TimesFM比大多數(shù)監(jiān)督方法都要好,包括最近的深度學(xué)習(xí)模型。論文還對比了TimesFM和GPT-3.5使用llmtime(ZS)提出的特定提示技術(shù)進(jìn)行預(yù)測,結(jié)果證明了TimesFM的性能優(yōu)于llmtime(ZS)。
在Monash數(shù)據(jù)集上,TimesFM(ZS)與其他有監(jiān)督和零樣本方法的比例MAE(越低越好)
大多數(shù)Monash數(shù)據(jù)集都是短期或中期的,也就是說預(yù)測長度不會太長;研究人員還測試了TimesFM對常用基準(zhǔn)長期預(yù)測對最先進(jìn)的基線PatchTST(和其他長期預(yù)測基線)。
研究人員繪制了ETT數(shù)據(jù)集上的MAE,用于預(yù)測未來96和192個時間點的任務(wù),在每個數(shù)據(jù)集的最后一個測試窗口上計算指標(biāo)。
TimesFM(ZS)的最后一個窗口MAE(越低越好)相對于llmtime(ZS)以及ETT數(shù)據(jù)集上的長期預(yù)測基線
可以看到,TimesFM不僅超過了llmtime(ZS)的性能,而且與在相應(yīng)數(shù)據(jù)集上顯式訓(xùn)練的有監(jiān)督PatchTST模型的性能相匹配。
本文轉(zhuǎn)自 新智元 ,作者:?新智元???
