自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="0l1io"></cite>

<sub id="0l1io"><p id="0l1io"></p></sub>

<sub id="0l1io"></sub>

<cite id="0l1io"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

LLM用于時(shí)序預(yù)測(cè)真的不行，連推理能力都沒用到

作者：機(jī)器之心 2024-07-08 06:30:00

人工智能新聞

對(duì)于時(shí)序預(yù)測(cè)任務(wù)，使用語言模型的常用方法的表現(xiàn)都接近或劣于基本的消融方法，但前者所需的計(jì)算量比后者多幾個(gè)數(shù)量級(jí)。

語言模型真的能用于時(shí)序預(yù)測(cè)嗎？根據(jù)貝特里奇頭條定律（任何以問號(hào)結(jié)尾的新聞標(biāo)題，都能夠用「不」來回答），答案應(yīng)該是否定的。事實(shí)似乎也果然如此：強(qiáng)大如斯的 LLM 并不能很好地處理時(shí)序數(shù)據(jù)。

時(shí)序，即時(shí)間序列，顧名思義，是指一組按照時(shí)間發(fā)生先后順序進(jìn)行排列的數(shù)據(jù)點(diǎn)序列。

在很多領(lǐng)域，時(shí)序分析都很關(guān)鍵，包括疾病傳播預(yù)測(cè)、零售分析、醫(yī)療和金融。在時(shí)序分析領(lǐng)域，近期不少研究者都在研究如何使用大型語言模型（LLM）來分類、預(yù)測(cè)和檢測(cè)時(shí)間序列中的異常。這些論文假設(shè)擅長處理文本中順序依賴關(guān)系的語言模型也能泛化用于時(shí)間序列數(shù)據(jù)中的順序依賴關(guān)系。這個(gè)假設(shè)并不令人意外，畢竟語言模型是現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域的香餑餑。

那么，語言模型究竟能給傳統(tǒng)時(shí)序任務(wù)帶去多大助益？

近日，弗吉尼亞大學(xué)和華盛頓大學(xué)一個(gè)團(tuán)隊(duì)嘗試解答了這一問題，并最終給出了一個(gè)簡單卻又重要的主張：對(duì)于時(shí)序預(yù)測(cè)任務(wù)，使用語言模型的常用方法的表現(xiàn)都接近或劣于基本的消融方法，但前者所需的計(jì)算量比后者多幾個(gè)數(shù)量級(jí)。

論文標(biāo)題：Are Language Models Actually Useful for Time Series Forecasting?
論文地址：https://arxiv.org/pdf/2406.16964

這些發(fā)現(xiàn)是該團(tuán)隊(duì)通過大量消融研究得到的，其中揭示出當(dāng)前時(shí)序預(yù)測(cè)研究中存在一個(gè)「令人擔(dān)憂的趨勢(shì)」。

但該團(tuán)隊(duì)也表示：「我們的目標(biāo)并不是暗示語言模型永遠(yuǎn)無法用于時(shí)間序列。」事實(shí)上，近期一些研究表明語言和時(shí)間序列之間具有很好的互動(dòng)潛力，可以處理時(shí)間序列推理和社交理解等任務(wù)。

相反，他們的目標(biāo)是強(qiáng)調(diào)這一驚人發(fā)現(xiàn)：對(duì)于已有的時(shí)間序列任務(wù)，現(xiàn)有方法幾乎沒有用到預(yù)訓(xùn)練語言模型那與生俱來的推理能力。

實(shí)驗(yàn)設(shè)置

該團(tuán)隊(duì)使用了三種最先進(jìn)的時(shí)間序列預(yù)測(cè)方法，并為 LLM 提出了三種消融方法：w/o LLM、LLM2Attn、LLM2Trsf。

為了評(píng)估 LLM 在時(shí)間序列預(yù)測(cè)任務(wù)上的有效性，他們?cè)?8 個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上對(duì)這些方法進(jìn)行了測(cè)試。

用于語言模型和時(shí)間序列的參考方法

他們實(shí)驗(yàn)了三種近期的使用 LLM 進(jìn)行時(shí)間序列預(yù)測(cè)的方法。見表 2，這些方法使用的基礎(chǔ)模型為 GPT-2 或 LLaMA，同時(shí)使用了不同的對(duì)齊和微調(diào)策略。

OneFitsAll：OneFitsAll（有時(shí)也被稱為 GPT4TS）方法會(huì)先對(duì)輸入時(shí)間序列使用實(shí)例歸一化和 patching 技術(shù)，然后將其饋送給一個(gè)線性層，以獲得用于語言模型的輸入表征。在訓(xùn)練期間，語言模型的多頭注意力和前饋層會(huì)被凍結(jié)，而位置嵌入和層歸一化會(huì)得到優(yōu)化。最終層的作用是將語言模型的最終隱藏狀態(tài)轉(zhuǎn)換成預(yù)測(cè)結(jié)果。

Time-LLM：使用 Time-LLM 時(shí)，輸入時(shí)間序列會(huì)被 patching 技術(shù) token 化，并且多頭注意力會(huì)將其與詞嵌入的低維表征對(duì)齊。之后，將這個(gè)對(duì)齊過程的輸出與描述性統(tǒng)計(jì)特征的嵌入一起輸送給一個(gè)凍結(jié)的預(yù)訓(xùn)練語言模型。然后，將該語言模型的輸出表征展平，并使其通過一個(gè)線性層，從而得到預(yù)測(cè)結(jié)果。

LLaTA：LLaTA 嵌入輸入時(shí)間序列的方式是將每個(gè)通道都視為一個(gè) token。該架構(gòu)的一半是「文本分支」，其使用交叉注意力來將時(shí)間序列表征與語言模型的詞嵌入的低維表征對(duì)齊。然后將該表征傳遞給一個(gè)凍結(jié)的預(yù)訓(xùn)練語言模型，得到一個(gè)「文本式預(yù)測(cè)」。同時(shí)，該架構(gòu)的「時(shí)間」分支會(huì)基于輸入時(shí)間序列為預(yù)訓(xùn)練語言模型學(xué)習(xí)一個(gè)低秩適應(yīng)器，從而得到一個(gè)用于推理的「時(shí)間預(yù)測(cè)」。該模型包含考慮這些表征之間的相似度的額外損失項(xiàng)。

該團(tuán)隊(duì)提出的消融方法

對(duì)于基于 LLM 的預(yù)測(cè)器，為了將 LLM 的影響隔離開，該團(tuán)隊(duì)提出了三種消融方法：移除 LLM 組件或?qū)⑵涮鎿Q成一個(gè)簡單模塊。

具體來說，對(duì)于上述三種方法中的每一種，他們都進(jìn)行了以下三項(xiàng)修改：

w/o LLM，見圖 1b。完全移除語言模型，直接將輸入 token 傳遞給參考方法的最終層。

LLM2Attn，見圖 1c。將語言模型替換成單個(gè)隨機(jī)初始化的多頭注意力層。

LLM2Trsf，見圖 1d。將語言模型替換成單個(gè)隨機(jī)初始化的 Transformer 模塊。

在上述消融研究中，預(yù)測(cè)器的其余部分都保持不變（可訓(xùn)練）。比如，如圖 1b 所示，在移除了 LLM 之后，輸入編碼會(huì)被直接傳遞給輸出映射。而如圖 1c 和 1d 所示，在將 LLM 替換成注意力或 Transformer 后，它們會(huì)與原始方法的剩余結(jié)構(gòu)一起獲得訓(xùn)練。

數(shù)據(jù)集和評(píng)估指標(biāo)

基準(zhǔn)數(shù)據(jù)集。評(píng)估使用了以下真實(shí)世界數(shù)據(jù)集：ETT（其包含 4 個(gè)子集：ETTm1、ETTm2、ETTh1、ETTh2）、Illness、Weather、Traffic、Electricity。表 1 給出了這些數(shù)據(jù)集的統(tǒng)計(jì)情況。另外還有 Exchange Rate、Covid Deaths、Taxi (30 min)、NN5 (Daily) 和 FRED-MD。

評(píng)估指標(biāo)。該研究報(bào)告的評(píng)估指標(biāo)是預(yù)測(cè)時(shí)序值和真實(shí)時(shí)序值之間的平均絕對(duì)誤差（MAE）和均方誤差（MSE）。

結(jié)果

具體來說，該團(tuán)隊(duì)探究了以下研究問題（RQ）：

（RQ1）預(yù)訓(xùn)練語言模型是否有助于提升預(yù)測(cè)性能？
（RQ2）基于 LLM 的方法是否值得其消耗的計(jì)算成本？
（RQ3）語言模型預(yù)訓(xùn)練是否有助于執(zhí)行預(yù)測(cè)任務(wù)的性能？
（RQ4）LLM 能否表征時(shí)間序列中的順序依賴關(guān)系？
（RQ5）LLM 是否有助于少樣本學(xué)習(xí)？
（RQ6）性能從何而來？

預(yù)訓(xùn)練語言模型是否有助于提升預(yù)測(cè)性能？(RQ1)

實(shí)驗(yàn)結(jié)果表明，預(yù)訓(xùn)練 LLM 對(duì)時(shí)間序列預(yù)測(cè)任務(wù)來說還不是很有用。

總體而言，如表 3 所示，在 8 個(gè)數(shù)據(jù)集和 2 個(gè)指標(biāo)上，消融方法在 26/26 案例中優(yōu)于 Time-LLM 方法，在 22/26 案例中優(yōu)于 LLaTA，在 19/26 案例中優(yōu)于 OneFitsAll。

總之，很難說 LLM 可以有效地用于時(shí)間序列預(yù)測(cè)。

基于 LLM 的方法是否值得其消耗的計(jì)算成本？(RQ2)

這里，根據(jù)這些方法的名義性能來評(píng)估它們的計(jì)算強(qiáng)度。參考方法中的語言模型使用了數(shù)億乃至數(shù)十億參數(shù)來執(zhí)行時(shí)間序列預(yù)測(cè)。即使當(dāng)這些語言模型的參數(shù)凍結(jié)時(shí)，它們?cè)谟?xùn)練和推理時(shí)依然會(huì)有很大的計(jì)算開銷。

舉個(gè)例子，Time-LLM 有 6642 M 參數(shù)，在 Weather 數(shù)據(jù)集上耗時(shí) 3003 分鐘才完成訓(xùn)練，而消融方法僅有 0.245 M 參數(shù)，平均訓(xùn)練時(shí)間僅有 2.17 分鐘。表 4 給出了在 ETTh1 和 Weather 數(shù)據(jù)集上訓(xùn)練其它方法的相關(guān)信息。

至于推理時(shí)間，這里的做法是除以最大批量大小，以估計(jì)每個(gè)示例的推理時(shí)間。平均而言，相比于修改后的模型，Time-LLM、OneFitsAl、LLaTA 所用的推理時(shí)間多 28.2、2.3、1.2 倍。

圖 3 給出了一些示例，其中綠色標(biāo)記（消融方法）通常低于紅色標(biāo)記（LLM），并且集中于左側(cè)，這說明它們計(jì)算成本更低但預(yù)測(cè)性能更好。

總之，在時(shí)間序列預(yù)測(cè)任務(wù)上，LLM 的計(jì)算強(qiáng)度無法為性能帶來相應(yīng)的提升。

語言模型預(yù)訓(xùn)練是否有助于執(zhí)行預(yù)測(cè)任務(wù)的性能？(RQ3)

評(píng)估結(jié)果表明，對(duì)于時(shí)間序列預(yù)測(cè)任務(wù)而言，使用大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練實(shí)在沒有必要。為了檢驗(yàn)預(yù)訓(xùn)練期間學(xué)到的知識(shí)能否給預(yù)測(cè)性能帶來有意義的提升，該團(tuán)隊(duì)實(shí)驗(yàn)了在時(shí)間序列數(shù)據(jù)上，對(duì) LLaTA 進(jìn)行不同組合的預(yù)訓(xùn)練和微調(diào)的效果。

預(yù)訓(xùn)練 + 微調(diào)（Pre+FT）：這是原始方法，即在時(shí)間序列數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練語言模型。對(duì)于這里的 LLaTA，做法是凍結(jié)基礎(chǔ)語言模型，學(xué)習(xí)一個(gè)低秩適應(yīng)器（LoRA）。
隨機(jī)初始化 + 微調(diào)（woPre+FT）：預(yù)訓(xùn)練得到的文本知識(shí)是否有助于時(shí)間序列預(yù)測(cè)？這里，隨機(jī)初始化語言模型的權(quán)重（由此清除了預(yù)訓(xùn)練的效果），再在微調(diào)數(shù)據(jù)集上從頭開始訓(xùn)練 LLM。
預(yù)訓(xùn)練 + 不使用微調(diào)（Pre+woFT）：在時(shí)間序列數(shù)據(jù)上進(jìn)行微調(diào)又能給預(yù)測(cè)性能帶來多大提升呢？這里是凍結(jié)語言模型，同時(shí)放棄學(xué)習(xí) LoRA。這能反映語言模型自身處理時(shí)間序列的性能。
隨機(jī)初始化 + 無微調(diào)（woPre+woFT）：很明顯，這就是將輸入時(shí)間序列隨機(jī)投射到一個(gè)預(yù)測(cè)結(jié)果。該結(jié)果被用作與其它方法進(jìn)行比較的基準(zhǔn)。

整體結(jié)果見表 5。在 8 個(gè)數(shù)據(jù)集上，依照 MAE 和 MSE 指標(biāo)，「預(yù)訓(xùn)練 + 微調(diào)」有三次表現(xiàn)最佳，而「隨機(jī)初始化 + 微調(diào)」獲得了 8 次最佳。這說明語言知識(shí)對(duì)時(shí)間序列預(yù)測(cè)的幫助有限。但是，「預(yù)訓(xùn)練 + 無微調(diào)」與基準(zhǔn)「隨機(jī)初始化 + 無微調(diào)」各自有 5 和 0 次最佳，這說明語言知識(shí)對(duì)微調(diào)過程的幫助也不大。

總之，預(yù)訓(xùn)練得到的文本知識(shí)對(duì)時(shí)間序列預(yù)測(cè)的幫助有限。

LLM 能否表征時(shí)間序列中的順序依賴關(guān)系？(RQ4)

大多數(shù)使用 LLM 來微調(diào)位置編碼的時(shí)間序列預(yù)測(cè)方法都有助于理解序列中時(shí)間步驟的位置。該團(tuán)隊(duì)預(yù)計(jì)，對(duì)于一個(gè)有優(yōu)良位置表征的時(shí)間序列模型，如果將輸入的位置打亂，那么其預(yù)測(cè)性能將會(huì)大幅下降。他們實(shí)驗(yàn)了三種打亂時(shí)間序列數(shù)據(jù)的方法：隨機(jī)混洗整個(gè)序列（sf-all）、僅隨機(jī)混洗前一半序列（sf-half）、交換序列的前半和后半部分（ex-half）。結(jié)果見表 6。

輸入混洗對(duì)基于 LLM 的方法與其消融方法的影響差不太多。這說明 LLM 在表征時(shí)間序列中的順序依賴關(guān)系方面并沒有什么突出能力。

LLM 是否有助于少樣本學(xué)習(xí)？(RQ5)

評(píng)估結(jié)果表明，LLM 對(duì)少樣本學(xué)習(xí)場(chǎng)景而言意義不大。

他們的評(píng)估實(shí)驗(yàn)是取用每個(gè)數(shù)據(jù)集的 10%，再訓(xùn)練模型及其消融方法。具體來說，這里評(píng)估的是 LLaMA（Time-LLM）。結(jié)果見表 7。

可以看到，有無 LLM 的表現(xiàn)差不多 —— 各自都有 8 個(gè)案例表現(xiàn)更好。該團(tuán)隊(duì)也使用基于 GPT-2 的方法 LLaTA 進(jìn)行了類似的實(shí)驗(yàn)。結(jié)果見表 8，這里消融方法在少樣本場(chǎng)景中的表現(xiàn)還優(yōu)于 LLM。

性能從何而來？(RQ6)

這一節(jié)評(píng)估的是 LLM 時(shí)間序列模型中常用的編碼技術(shù)。結(jié)果發(fā)現(xiàn)，將 patching 和單層注意力組合起來是一種簡單卻有效的選擇。

前面發(fā)現(xiàn)對(duì)基于 LLM 的方法進(jìn)行簡單的消融并不會(huì)降低其性能。為了理解這一現(xiàn)象的原因，該團(tuán)隊(duì)研究了 LLM 時(shí)間序列任務(wù)中常用的一些編碼技術(shù)，比如 patching 和分解。一種基本的 Transformer 模塊也可用于輔助編碼。

結(jié)果發(fā)現(xiàn)，一種組合了 patching 和注意力的結(jié)構(gòu)在小數(shù)據(jù)集（時(shí)間戳少于 100 萬）上的表現(xiàn)優(yōu)于其它大部分編碼方法，甚至能與 LLM 方法媲美。

其詳細(xì)結(jié)構(gòu)如圖 4 所示，其中涉及將「實(shí)例歸一化」用于時(shí)間序列，然后進(jìn)行 patching 和投射。然后，在 patch 之間使用一層注意力進(jìn)行特征學(xué)習(xí)。對(duì)于 Traffic（約 1500 萬）和 Electricity（約 800 萬）等更大的數(shù)據(jù)集，則使用了基本 Transformer 的單層線性模型的編碼表現(xiàn)更優(yōu)。在這些方法中，最后還要使用單層線性層來投射時(shí)間序列嵌入，從而得到預(yù)測(cè)結(jié)果。

總之，patching 對(duì)編碼而言非常重要。此外，基本的注意力和 Transformer 模塊也能為編碼帶來有效助益。

責(zé)任編輯：張燕妮來源：機(jī)器之心

語言模型 LLM

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="sx448"><option id="sx448"></option></ruby>

<abbr id="sx448"><table id="sx448"></table></abbr>

<button id="sx448"></button>

<pre id="sx448"><var id="sx448"></var></pre>