耶魯&斯坦福聯(lián)合發(fā)表,融合channel獨立/聯(lián)合建模提升多元時序預測效果
今天給大家介紹的文章,是耶魯大學和斯坦福大學聯(lián)合發(fā)表的多元時間序列預測工作,重點解決的問題還是最近經(jīng)常被提及的channel之間的聯(lián)合建模還是獨立建模的問題,提出了一種多channel間關系建模的新方法,通過學習各個channel間的關系,實現(xiàn)channel獨立和channel聯(lián)合建模的融合。
論文標題:From Similarity to Superiority: Channel Clustering for Time Series Forecasting
下載地址:??https://arxiv.org/pdf/2404.01340v1.pdf??
1、背景
多元時間序列建模問題中,各個變量(channel)之間是獨立建模還是聯(lián)合建模,是近期的一個研究焦點。以PatchTST為代表的channel independent建模方法,將多元序列看成多個單元序列,每個單元序列分別建模,取得了很好的效果,也有一些工作驗證了多元序列使用channel dependent進行聯(lián)合建模會造成嚴重的過擬合問題。這導致現(xiàn)在很多方法都采用了獨立建模來將多變量序列建模簡化成單變量序列建模。
然而,多變量之間的關系一定會帶來一些信息增益,忽略這部分信息,模型就缺少了各個變量之間互相影響關系的信息輸入,會造成一定的效果損失。因此核心問題在于,如何既能將多變量之間的關系引入模型,同時又能緩解多變量聯(lián)合建模的過擬合問題。
針對上述問題,本文提出了一種融合channel independent和channel dependent的建模方法,核心思路是將各個變量序列進行聚類,根據(jù)變量間的相似程度,選擇channel dependent建模的強度。其前提假設為,越相似的序列,通過channel dependent建模方法能帶來的信息增益越大;反之,如果兩個序列完全沒關系,那么引入channel dependent的建模反而會帶來過擬合問題,就更應用channel independent的方式進行獨立建模。
2、實現(xiàn)方法
基于上述的出發(fā)點,文中提出的解決路徑為:先將序列聚類得到相似簇->每個簇內(nèi)用channel dependent建模->簇間使用channel independent建模。通過這種方式,使得channel independent和channel dependent這兩種建模方法融合了起來,充分發(fā)揮二者優(yōu)勢。
在聚類階段,主要采用的是prototype embedding的方式。初始生成k個cluster質(zhì)心embedding,每個變量時間序列使用MLP得到相應的序列embedding,使用cluster embedding和序列embedding之間夾角余弦計算相似度,為每個序列分配聚類結果,得到分配矩陣。同時,根據(jù)變量序列embedding和分配矩陣,可以融合生成每個聚類相應的prototype embedding。
在聚類之后,對于屬于一個類簇的變量,其具有較高的相似性,使用一個共享的MLP進行多變量關系建模;對不同類簇的變量,使用獨立的MLP,進行獨立建模。通過這種方式,相當于將原來變量粒度的建模,轉換成了類簇粒度的channel independent建模,類簇內(nèi)為channel dependent的建模。
此外,文中的方法也可以擴展到單變量序列建模中,將每個序列當成一個變量,進行序列粒度的聚類,實現(xiàn)樣本間關系的捕捉。在聚類過程中,生成的prototype embedding,也可以用于zero-shot learning。對于一個之前沒見過的序列,先獲取其屬于各個類別的概率,然后使用各個類別的MLP進行加權融合,實現(xiàn)未見過序列的zero-shot learning。
3、實驗結果
本文提出的方法,可以嵌套在任何一個目前SOTA的時間序列預測模型中。文中在TSMixer、DLinear、PatchTST、TimeNet等4個目前SOTA的時間序列模型中,嵌入了文中提出的模塊,對比是否包含該模塊的效果。從實驗結果可以看出,引入改模塊對于多元時間序列預測的效果有顯著的提升。
此外,文中也對channel的embedding、prototype的embedding進行了可視化分析。
圖片
圖片
本文轉載自 ??圓圓的算法筆記??,作者: Fareise
