自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

時(shí)序+圖像+文本,多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型

發(fā)布于 2025-2-21 11:31
瀏覽
0收藏

今天給大家介紹一片最新的多模態(tài)時(shí)間序列預(yù)測(cè)工作。這篇文章采用了時(shí)間序列、圖像、文本三種模態(tài)的數(shù)據(jù)形式,進(jìn)行時(shí)間序列預(yù)測(cè),增強(qiáng)底層信息的輸入,提升時(shí)序預(yù)測(cè)效果。

時(shí)序+圖像+文本,多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型-AI.x社區(qū)

論文標(biāo)題:Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting

下載地址:??https://arxiv.org/pdf/2502.04395??

1.研究背景

傳統(tǒng)的時(shí)間序列預(yù)測(cè)方法,都是最基礎(chǔ)的時(shí)間序列形式數(shù)據(jù)進(jìn)行建模的。然而,最近一些工作將文本信息、圖像信息等模態(tài)引入時(shí)間序列建模中。例如,將時(shí)間序列轉(zhuǎn)換成文本形式輸入到LLM,或者將時(shí)間序列轉(zhuǎn)換成圖像數(shù)據(jù)輸入圖像模型。

文本和圖像數(shù)據(jù)各有優(yōu)勢(shì)。文本形式可以提供豐富的上下文語(yǔ)義信息,而圖像形式可以非常直觀的提升時(shí)間序列的形狀信息。如何融合不同模態(tài)的信息實(shí)現(xiàn)時(shí)間序列預(yù)測(cè),在目前的多模態(tài)大模型階段是一個(gè)值得深入研究的優(yōu)化點(diǎn)。

這篇文章就提出了一種融合時(shí)間序列、圖像、文本等3種模態(tài)信息的時(shí)間序列預(yù)測(cè)模型,利用各個(gè)模態(tài)的輸入進(jìn)行優(yōu)勢(shì)互補(bǔ),提升時(shí)間序列預(yù)測(cè)整體的效果。

時(shí)序+圖像+文本,多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型-AI.x社區(qū)圖片

2.建模方法

本文的核心建模方法可以分為4個(gè)部分:時(shí)間序列模態(tài)建模、圖像模態(tài)建模、文本模態(tài)建模、多模態(tài)融合。下面對(duì)這4個(gè)主要模塊展開進(jìn)行介紹。

時(shí)間序列模態(tài)輸入:本文采用了Patch+檢索的時(shí)序表征抽取方式。首先將時(shí)間序列分割成patch,然后使用多個(gè)可學(xué)習(xí)的query向量,和各個(gè)patch或者patch內(nèi)部表征計(jì)算attention,相當(dāng)于用可學(xué)習(xí)query去提取各個(gè)patch以及patch內(nèi)部的重要信息,得到對(duì)應(yīng)的時(shí)間序列表征。Patch間attention檢索表征和patch內(nèi)attention檢索表征使用加權(quán)求和的方式進(jìn)行融合。

時(shí)序+圖像+文本,多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型-AI.x社區(qū)

圖像模態(tài)輸入:在圖像模態(tài)部分,會(huì)使用傅里葉變換將原始時(shí)間序列映射到頻域,并且使用三角函數(shù)構(gòu)建每個(gè)時(shí)間步的相對(duì)位置關(guān)系。再加上原始的時(shí)間序列,共得到有3個(gè)channel的張量,維度為Batch_size、序列長(zhǎng)度、變量數(shù)量、3(3為原始序列、傅里葉變換結(jié)果、三角函數(shù)位置信息)。接下來使用層次的卷積分別進(jìn)行不同維度的信息提取。最后,將卷積輸出的表征通過resize和插值的方法轉(zhuǎn)換成目標(biāo)尺寸的圖片上,得到最終的圖像模態(tài)輸入。再輸入到多模態(tài)視覺模型中,得到表征。

文本模態(tài)輸入:對(duì)于文本模態(tài),文中主要以數(shù)據(jù)集的描述為輸入,結(jié)合相應(yīng)的prompt,經(jīng)過一層多模態(tài)文本模型,得到文本表征。

多模態(tài)融合:對(duì)于上述3種類型模態(tài)的輸入,分別使用一個(gè)Encoder提取最終表征。時(shí)間序列模態(tài)使用self-attention和pooling進(jìn)行提取。圖像和文本模態(tài)使用預(yù)訓(xùn)練的圖文模型(如CLIP等)分別提取圖像和文本表征,模型參數(shù)凍結(jié)。在上層使用一個(gè)Multimodal Fusion Network進(jìn)行多模態(tài)信息的融合。MFN的核心是使用時(shí)序模態(tài)的表征作為query,多模態(tài)保證作為key和value,進(jìn)行跨模態(tài)attention。最后,再使用一個(gè)gate網(wǎng)絡(luò),對(duì)時(shí)序表征和多模態(tài)表征進(jìn)行加權(quán)融合。整體計(jì)算過程如下:

時(shí)序+圖像+文本,多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型-AI.x社區(qū)圖片

時(shí)序+圖像+文本,多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型-AI.x社區(qū)

時(shí)序+圖像+文本,多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型-AI.x社區(qū)圖片

3.實(shí)驗(yàn)效果

通過在長(zhǎng)期、短期時(shí)間序列預(yù)測(cè)上的效果對(duì)比可以發(fā)現(xiàn),本文提出的方法取得了顯著的效果提升,驗(yàn)證了多模態(tài)信息引入的有效性。

時(shí)序+圖像+文本,多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型-AI.x社區(qū)圖片

本文轉(zhuǎn)載自??圓圓的算法筆記??


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦