自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

預(yù)訓(xùn)練大語言模型對時間序列預(yù)測真的有用嗎?去掉預(yù)訓(xùn)練LLM效果反而提升

發(fā)布于 2024-7-3 08:43
瀏覽
0收藏

今天給大家介紹一篇關(guān)于大模型在時間序列應(yīng)用探討的工作。這篇文章質(zhì)疑大語言模型在時間序列預(yù)測中是否有效,并對目前最先進(jìn)的3個基于大語言模型的時間序列預(yù)測模型進(jìn)行實驗,發(fā)現(xiàn)去掉大語言模型部分,改成一個attention網(wǎng)絡(luò),也能取得相同甚至更優(yōu)的效果。

預(yù)訓(xùn)練大語言模型對時間序列預(yù)測真的有用嗎?去掉預(yù)訓(xùn)練LLM效果反而提升-AI.x社區(qū)

論文標(biāo)題:Are Language Models Actually Useful for Time Series Forecasting?

下載地址:??https://arxiv.org/pdf/2406.16964v1??

1、背景

隨著大語言模型的興起,一些工作也將其應(yīng)用到時間序列預(yù)測領(lǐng)域。這類方法一般基于預(yù)訓(xùn)練好的NLP領(lǐng)域的語言模型,將時間序列轉(zhuǎn)換成文本形式輸入其中,通過finetune大模型,產(chǎn)出預(yù)測結(jié)果。典型的代表工作包括OneFitsAll、Time-LLM、LLaTA等工作。

預(yù)訓(xùn)練大語言模型對時間序列預(yù)測真的有用嗎?去掉預(yù)訓(xùn)練LLM效果反而提升-AI.x社區(qū)

本文質(zhì)疑的點(diǎn)就是大語言模型在時間序列預(yù)測中是否真的有效。通過一系列的對目前先進(jìn)的大語言模型的實驗來看,引入大語言模型并不和提升效果,甚至?xí)档托Ч?,并且白白浪費(fèi)了更多的計算資源。

2、實驗方法

本文對3個目前業(yè)內(nèi)最先進(jìn)的基于大語言模型的時間序列預(yù)測方法進(jìn)行實驗,分別是OneFitsAll、Time-LLM、LLaTA。

OneFitsAll:OneFitsAll是基于GPT4的時序預(yù)測模型,將時間序列歸一化并進(jìn)行patch處理后,輸入預(yù)訓(xùn)練GPT4中,finetune其中的position embedding和layer norm參數(shù),其他參數(shù)freeze;

Time-LLM:Time-LLM將時間序列轉(zhuǎn)換成token后映射到低維表征,和數(shù)據(jù)集描述等信息拼接后輸入到預(yù)訓(xùn)練大模型中,大模型的輸出結(jié)果再輸入到一個線性層進(jìn)行生成預(yù)測結(jié)果;

LLaTA:模型分為文本分支和時序分支,文本分支部分將原始時間序列和大模型的word embedding對齊后,輸入到大模型中,生成文本表征。時序分支基于原始時間序列數(shù)據(jù),使用一個adpater對預(yù)訓(xùn)練大模型進(jìn)行finetune,同時將時序分支和文本分支的表征拉近作為輔助任務(wù)。

預(yù)訓(xùn)練大語言模型對時間序列預(yù)測真的有用嗎?去掉預(yù)訓(xùn)練LLM效果反而提升-AI.x社區(qū)

在實驗方法上,針對上述3個大模型時序預(yù)測模型,采用如下方法進(jìn)行消融實驗,鑒別大模型在其中的作用。第一種是w/o LLM,直接將大模型部分去掉。第二種是LLM2Attn,將大模型改成一個參數(shù)隨機(jī)初始化multi-head attention結(jié)構(gòu)。第三種是LLM2Trsf,將大模型部分改成一個隨機(jī)初始化的Transformer結(jié)構(gòu)。通過對比這三種方式和原始模型的效果,就可以分辨出大模型的參數(shù)是否對時間序列預(yù)測起到作用。

預(yù)訓(xùn)練大語言模型對時間序列預(yù)測真的有用嗎?去掉預(yù)訓(xùn)練LLM效果反而提升-AI.x社區(qū)

3、實驗結(jié)果

下表展示了一個基礎(chǔ)的消融實驗效果圖。從圖中可以看出,Time-LLM、LLaTA、OneFitsALL等模型中,將大語言模型部分直接改成Transformer,在不同的數(shù)據(jù)集上效果并沒有明顯下降。在一些數(shù)據(jù)集上效果反而提升了。消融模型的效果,所有case上都超過了Time-LLM,22個case超過了Time-LLM,19個數(shù)據(jù)集超過了OneFitsALL。這說明在這些方法中,預(yù)訓(xùn)練的大語言模型并沒有發(fā)揮什么特別重要的作用。

預(yù)訓(xùn)練大語言模型對時間序列預(yù)測真的有用嗎?去掉預(yù)訓(xùn)練LLM效果反而提升-AI.x社區(qū)

除了預(yù)訓(xùn)練參數(shù)外,文中對比了大模型所增加的計算開銷,性價比是否足夠高。文中的消融實驗的模型參數(shù)量要小于大模型本身的參數(shù)量。通過實驗對比來看,大模型耗費(fèi)更多的inference時間,但是效果卻不如消融實驗的效果。

預(yù)訓(xùn)練大語言模型對時間序列預(yù)測真的有用嗎?去掉預(yù)訓(xùn)練LLM效果反而提升-AI.x社區(qū)

本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise

已于2024-7-3 08:44:44修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦