自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型能否成為預(yù)言家?使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行?

發(fā)布于 2024-4-26 13:06
瀏覽
0收藏

大語(yǔ)言模型的成功充分證明了Transformer架構(gòu)的先進(jìn)性,越來(lái)越多的人希望把它應(yīng)用到其它領(lǐng)域,而非NLP領(lǐng)域本身,因而也催生了以一套Transformer架構(gòu)統(tǒng)一各種模態(tài)的研究熱點(diǎn)。

而在工業(yè)界有一個(gè)非常常見(jiàn)的場(chǎng)景卻鮮有涉及,那就是結(jié)構(gòu)化數(shù)據(jù)的時(shí)序預(yù)測(cè)類場(chǎng)景,通常認(rèn)為這種方式利用統(tǒng)計(jì)和經(jīng)典回歸類模型就已經(jīng)足夠了,并且確實(shí)在過(guò)去的研究來(lái)看,以Transformer為代表的,在NLP,CV等方面大殺四方的深度學(xué)習(xí)模型在這方面表現(xiàn)也并不夠出色。

但這并不表示學(xué)術(shù)界和工業(yè)界沒(méi)有在這方面有嘗試,甚至可以說(shuō),這可能會(huì)是下一個(gè)爆點(diǎn)。今天我們就圍繞這個(gè)話題做一些簡(jiǎn)單介紹。

利用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè),有兩個(gè)大的方向,一個(gè)是針對(duì)下游任務(wù)訓(xùn)練一個(gè)專有任務(wù)模型,另一個(gè)是做預(yù)訓(xùn)練通用大模型。

專有任務(wù)模型

這類思路起步較早,以N-BEATS、N-HiTS、PatchTST和TimesNet,以及最近清華與螞蟻金服出的iTransformer為代表,試圖通過(guò)各種手段來(lái)適配時(shí)序預(yù)測(cè)場(chǎng)景。它們大體可以根據(jù)是否修改組件和架構(gòu)分為四類。

第一類是最基本的做法,不改變架構(gòu),但改進(jìn)組件以適應(yīng)場(chǎng)景,特別是用于時(shí)間依賴性建模的注意力模塊和長(zhǎng)序列的復(fù)雜性優(yōu)化,以autoformer,informer為代表。然而,適配成本較高,性能也備受線性預(yù)測(cè)器挑戰(zhàn)。

第二類是在不改變結(jié)構(gòu)和組件的情況下充分利用Transformer的特性提升模型性能,以PatchTST為代表。它更關(guān)注時(shí)間序列的固有處理,如平穩(wěn)化、通道獨(dú)立性和修補(bǔ),從而帶來(lái)持續(xù)改進(jìn)的性能。此外,面對(duì)多個(gè)變量的獨(dú)立性和相互作用的日益重要。

第三類在組件和架構(gòu)均對(duì)Transformer進(jìn)行改造,以CrossFormer為代表。通過(guò)改造的注意力機(jī)制和架構(gòu)明確地捕捉到跨時(shí)間和跨變量的依賴性。

第四類是僅調(diào)整架構(gòu),并不改變transfomer原生組件,研究者認(rèn)為并不是這些組件不好,而是使用方式不當(dāng)導(dǎo)致的,以itransformer為代表。

大模型能否成為預(yù)言家?使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行?-AI.x社區(qū)

值得一提的是,傳統(tǒng)的Transformer模型在時(shí)間序列預(yù)測(cè)中存在性能下降和計(jì)算爆炸的問(wèn)題,同時(shí)對(duì)于具有較大回溯窗口的序列預(yù)測(cè)也存在挑戰(zhàn)。此外,傳統(tǒng)的Transformer模型將每個(gè)時(shí)間步的多個(gè)變量嵌入到同一個(gè)標(biāo)記中,可能導(dǎo)致學(xué)習(xí)到的注意力無(wú)意義。作為這一方向最新進(jìn)展的代表,iTransformer通過(guò)不同的嵌入方式和編碼方式,能夠更好地處理多元相關(guān)性,在沒(méi)有修改Transformer的任何原生組件的條件下,而是通過(guò)全新的倒置視角來(lái)實(shí)現(xiàn)更好的預(yù)測(cè)性能,對(duì)PatchTST(SOTA)提出了挑戰(zhàn)。

大模型能否成為預(yù)言家?使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行?-AI.x社區(qū)

大模型能否成為預(yù)言家?使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行?-AI.x社區(qū)

??https://arxiv.org/pdf/2310.06625v3.pdf??

通用時(shí)序大模型

這一思路顯然受到了GPT-3這樣的通用大語(yǔ)言模型的啟發(fā),嘗試通過(guò)預(yù)訓(xùn)練一個(gè)大模型,能夠在zero-shot下進(jìn)行時(shí)序預(yù)測(cè)。這一方向聽(tīng)起來(lái)非常的時(shí)髦,也同時(shí)存在巨大的風(fēng)險(xiǎn),業(yè)內(nèi)對(duì)于這樣的方式也褒貶不一。其中一個(gè)最大的限制就是它很難找到像大語(yǔ)言模型所需要的海量的高質(zhì)量訓(xùn)練數(shù)據(jù)。另外,不同領(lǐng)域的問(wèn)題也很難像語(yǔ)言、圖片,視頻那樣具有泛化性。

大模型能否成為預(yù)言家?使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行?-AI.x社區(qū)

這一方向典型代表是TimeGPT,它是由Nixtla提出的,是一個(gè)基于Transformer的時(shí)間序列模型,采用歷史值窗口來(lái)進(jìn)行預(yù)測(cè),并添加本地位置編碼來(lái)豐富輸入。該模型通過(guò)捕捉過(guò)去事件的多樣性,進(jìn)而正確地推斷潛在的未來(lái)分布。它采用了公開可用的最大時(shí)間序列數(shù)據(jù)集進(jìn)行訓(xùn)練,包含超過(guò)1000億個(gè)數(shù)據(jù)點(diǎn)。這個(gè)訓(xùn)練集涵蓋了來(lái)自金融、經(jīng)濟(jì)、人口統(tǒng)計(jì)、醫(yī)療保健、天氣、物聯(lián)網(wǎng)傳感器數(shù)據(jù)、能源、網(wǎng)絡(luò)流量、銷售、交通和銀行業(yè)等廣泛領(lǐng)域的時(shí)間序列。由于這種多樣化的領(lǐng)域集合,訓(xùn)練數(shù)據(jù)集包含了具有各種特征的時(shí)間序列。和timeGPT同類型的還有EarthPT,一個(gè)用于地球觀測(cè)的時(shí)間序列基礎(chǔ)模型。

大模型能否成為預(yù)言家?使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行?-AI.x社區(qū)

??https://arxiv.org/pdf/2310.03589.pdf??

需要說(shuō)明的是,TimeGPT并不是直接基于現(xiàn)有的大型語(yǔ)言模型。雖然TimeGPT遵循在大量數(shù)據(jù)集上訓(xùn)練大型Transformer模型的原則,但其架構(gòu)專門為用于處理時(shí)間序列數(shù)據(jù)而設(shè)計(jì),經(jīng)過(guò)訓(xùn)練后,旨在最小化預(yù)測(cè)誤差。具體實(shí)現(xiàn)方法論文語(yǔ)焉不詳,有人猜測(cè)是利用patchTST或者NHITS實(shí)現(xiàn)。

大模型能否成為預(yù)言家?使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行?-AI.x社區(qū)

下表是其論文中提到的性能對(duì)比:

大模型能否成為預(yù)言家?使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行?-AI.x社區(qū)

另一個(gè)直觀的性能比較是,利用相同的數(shù)據(jù)集(marcopeix/time-seriesanalysis/blob/master/data/medium_views_published_holidays.csv),微調(diào)TimeGPT與采用N-BEATS, N-HiTS 和 PatchTST 這樣的第一類方法訓(xùn)練的模型進(jìn)行比較。從結(jié)果看,經(jīng)過(guò)簡(jiǎn)單微調(diào)的TimeGPT表現(xiàn)比PatchTST更好,獲得了第一。

大模型能否成為預(yù)言家?使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行?-AI.x社區(qū)

大模型能否成為預(yù)言家?使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行?-AI.x社區(qū)

具體實(shí)驗(yàn)可參考:https://github.com/marcopeix/time-series-analysis/blob/master/TimeGPT.ipynb

另外,TimeGPT作為一個(gè)商業(yè)模型,提供了完備的使用文檔,可以在其模型上預(yù)估和微調(diào)自己的時(shí)序模型。

nixtla_client = NixtlaClient(
    # defaults to os.environ.get("NIXTLA_API_KEY")
    api_key = 'my_api_key_provided_by_nixtla'
)


# df: A pandas dataframe containing the time series data.
# h: The number of steps ahead to forecast.
# freq: The frequency of the time series in Pandas format. See pandas’ available frequencies.
# time_col: Column that identifies the datestamp column.
# target_col: The variable that we want to forecast.
#預(yù)測(cè)
timegpt_fcst_pred_int_df = nixtla_client.forecast(
    df=df, h=12, level=[80, 90, 99.7], 
    time_col='timestamp', target_col='value',
)




#微調(diào)
timegpt_fcst_finetune_df = nixtla_client.forecast(
    df=df, h=12, finetune_steps=10,
    time_col='timestamp', target_col='value',
)

更多可參考:https://docs.nixtla.io/docs/timegpt_quickstart

綜上,可以看出目前基于transformer的時(shí)序預(yù)測(cè)領(lǐng)域尚處于早期階段,兩種思路誰(shuí)更優(yōu)尚無(wú)法判斷,能否取代傳統(tǒng)機(jī)器學(xué)習(xí)方式也無(wú)定論,但可以肯定的是,未來(lái)肯定會(huì)有更多人關(guān)注這一領(lǐng)域,或許隨著數(shù)據(jù)和方法的不斷完備,出現(xiàn)一個(gè)類似ChatGPT這樣的新物種也未嘗不可能。

本文轉(zhuǎn)載自 ??AI工程化??,作者: ully

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦