自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM解決時(shí)間序列問(wèn)題之語(yǔ)言模型+時(shí)序模型的對(duì)齊與融合建模

發(fā)布于 2024-12-24 13:33
瀏覽
0收藏

直接基于預(yù)訓(xùn)練的大語(yǔ)言模型(LLM)解決時(shí)間序列問(wèn)題,是一個(gè)最近的重要研究點(diǎn)。之前的研究中,主要嘗試用LLM進(jìn)行zero-shot learning,或者基于LLM的參數(shù)進(jìn)行finetune。隨著研究的深入,研究者發(fā)現(xiàn),單獨(dú)的一個(gè)LLM模型,或者單獨(dú)的用LLM在時(shí)序數(shù)據(jù)上finetune,并不能取得最優(yōu)的效果。因此除了上述優(yōu)化之外,另一些工作嘗試同時(shí)引入LLM構(gòu)建文本模型和時(shí)序模型,并對(duì)兩種模態(tài)的信息進(jìn)行對(duì)齊,提升時(shí)序預(yù)測(cè)效果。

今天就給大家總結(jié)幾篇最近一段時(shí)間,使用語(yǔ)言模型+時(shí)序模型進(jìn)行融合建模的最新工作。

1.基于Attention的文本時(shí)序融合

Taming Pre-trained LLMs for Generalised Time Series Forecasting via Cross-modal Knowledge Distillation提出一種文本+時(shí)序模型雙分支的結(jié)構(gòu),都從LLM進(jìn)行參數(shù)初始化,并進(jìn)行跨模態(tài)的表征對(duì)齊。整體模型包含兩個(gè)分支,一個(gè)分支是文本模型,使用預(yù)訓(xùn)練的GPT2;另一個(gè)分支是時(shí)間序列模型,用來(lái)對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行編碼,也使用預(yù)訓(xùn)練的GPT2。對(duì)于輸入的多元時(shí)間序列數(shù)據(jù),首先使用iTransformer中的方法,將每個(gè)變量的序列看成一個(gè)token,生成多元時(shí)間序列的表征。對(duì)于文本模型側(cè),首先使用PCA對(duì)word embedding做一個(gè)降維,生成cluster。為了實(shí)現(xiàn)時(shí)間序列和文本信息的對(duì)齊,使用一個(gè)multi-head attention,以時(shí)間序列表征作為Query,文本模型的cluster表征作為Key和Value計(jì)算融合表征。

文本模型和時(shí)間序列模型這兩個(gè)分支都進(jìn)行時(shí)間序列預(yù)測(cè)。為了對(duì)齊兩個(gè)模態(tài),文中引入了兩個(gè)約束。第一個(gè)約束是,讓文本模型和時(shí)間序列模型的隱層表征的距離最??;另一個(gè)約束是讓兩個(gè)模態(tài)的預(yù)測(cè)結(jié)果盡可能相同。在finetune階段,文本模型側(cè)不更新參數(shù),時(shí)間序列模型測(cè)使用LoRA進(jìn)行高效finetune。

LLM解決時(shí)間序列問(wèn)題之語(yǔ)言模型+時(shí)序模型的對(duì)齊與融合建模-AI.x社區(qū)

2.Patch表征和Token表征隱空間對(duì)齊

S2IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting也是類似的建模方法,結(jié)合prompt對(duì)時(shí)序模型和文本模型進(jìn)行對(duì)齊。本文提出,將時(shí)間序列的patch表征和大模型的word embedding在隱空間對(duì)齊,然后檢索出topK的word embedding,作為隱式的prompt。具體做法為,使用上一步生成的patch embedding,和語(yǔ)言模型中的word embedding計(jì)算余弦相似度,選擇topK的word embedding,再將這些word embedding作為prompt,拼接到時(shí)間序列patch embedding的前方。由于大模型word embedding大多,為了減少計(jì)算量,先對(duì)word embedding做了一步映射,映射到數(shù)量很少的聚類中心上。文中使用GPT2作為語(yǔ)言模型部分,除了position embedding和layer normalization部分的參數(shù)外,其余的都凍結(jié)住。優(yōu)化目標(biāo)除了MSE外,還引入patch embedding和檢索出的topK cluster embedding的相似度作為約束,要求二者之間的距離越小越好。

LLM解決時(shí)間序列問(wèn)題之語(yǔ)言模型+時(shí)序模型的對(duì)齊與融合建模-AI.x社區(qū)

3.原型Embedding對(duì)齊文本和時(shí)序

Rethinking Time Series Forecasting with LLMs via Nearest Neighbor Contrastive Learning提出一種方法是訓(xùn)練幾個(gè)文本原型向量,并讓其對(duì)齊時(shí)間序列數(shù)據(jù)表征,最后將這些原型向量作為prompt加入到時(shí)間序列輸入中。文中提出的文本原型向量名為TCTP。如下圖所示,其核心是在LLM的token embedding表征空間中,學(xué)一些可學(xué)習(xí)的embedding,實(shí)現(xiàn)一種對(duì)原始token embedding聚類的目的。同時(shí),通過(guò)對(duì)比學(xué)習(xí)的手段,拉近這些原型embedding和時(shí)間序列表征之間的距離,作為一個(gè)中間橋梁對(duì)齊token embedding和時(shí)間序列embedding。

具體的模型結(jié)構(gòu)圖如下。TCTP的優(yōu)化目標(biāo)有兩個(gè)。一方面,要求每個(gè)token embedding和距離其最近的TCTP embedding盡可能小,實(shí)現(xiàn)將TCTP嵌入到token embedding的表征空間。另一方面,對(duì)于一個(gè)時(shí)間序列,使用patch+linear生成的時(shí)序表征,和各個(gè)TCTP計(jì)算距離,選擇距離最小的K個(gè)TCTP,通過(guò)對(duì)比學(xué)習(xí)拉近時(shí)序表征和這K個(gè)TCTP的距離,實(shí)現(xiàn)時(shí)序表征到TCTP表征的對(duì)齊,進(jìn)而對(duì)齊到預(yù)訓(xùn)練語(yǔ)言模型的token表征空間。

在得到TCTP表征后,將其作為soft prompt,拼接到時(shí)間序列輸入的前面,整體輸入到預(yù)訓(xùn)練的語(yǔ)言模型中。語(yǔ)言模型輸出的表征接一個(gè)可學(xué)習(xí)的線性層,映射到最終的預(yù)測(cè)結(jié)果。

LLM解決時(shí)間序列問(wèn)題之語(yǔ)言模型+時(shí)序模型的對(duì)齊與融合建模-AI.x社區(qū)圖片

本文轉(zhuǎn)載自??圓圓的算法筆記??,作者: Fareise 


已于2024-12-24 13:49:41修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦