誰(shuí)說(shuō)大象不能起舞! 重編程大語(yǔ)言模型實(shí)現(xiàn)跨模態(tài)交互的時(shí)序預(yù)測(cè) | ICLR 2024
最近,來(lái)自澳大利亞蒙納士大學(xué)、螞蟻集團(tuán)、IBM 研究院等機(jī)構(gòu)的研究人員探索了模型重編程 (model reprogramming) 在大語(yǔ)言模型 (LLMs) 上應(yīng)用,并提出了一個(gè)全新的視角:高效重編程大語(yǔ)言模型進(jìn)行通用時(shí)序預(yù)測(cè) –- 其提出的 Time-LLM 框架無(wú)需修改語(yǔ)言模型即可實(shí)現(xiàn)高精度時(shí)序預(yù)測(cè),在多個(gè)數(shù)據(jù)集和預(yù)測(cè)任務(wù)中超越了傳統(tǒng)的時(shí)序模型,讓 LLMs 在處理跨模態(tài)的時(shí)間序列數(shù)據(jù)時(shí)展現(xiàn)出色,就像大象起舞一般!
近期,受到大語(yǔ)言模型在通用智能領(lǐng)域的啟發(fā),「大模型 + 時(shí)序 / 時(shí)空數(shù)據(jù)」這個(gè)新方向迸發(fā)出了許多相關(guān)進(jìn)展。當(dāng)前的 LLMs 有潛力徹底改變時(shí)序 / 時(shí)空數(shù)據(jù)挖掘方式,從而促進(jìn)城市、能源、交通、遙感等典型復(fù)雜系統(tǒng)的決策高效制定,并朝著更普遍的時(shí)序 / 時(shí)空分析智能形式邁進(jìn)。
大模型,例如語(yǔ)言和其他相關(guān)的基礎(chǔ)模型,既可以訓(xùn)練,也可以巧妙地重新調(diào)整其用途,以處理一系列通用任務(wù)和專用領(lǐng)域應(yīng)用中的時(shí)間序列和時(shí)空數(shù)據(jù)。來(lái)源:https://arxiv.org/pdf/2310.10196.pdf
最近的研究將大型語(yǔ)言模型從處理自然語(yǔ)言拓展到時(shí)間序列和時(shí)空任務(wù)領(lǐng)域。這種新的研究方向,即「大模型 + 時(shí)序 / 時(shí)空數(shù)據(jù)」,催生了許多相關(guān)進(jìn)展,例如 LLMTime 直接利用 LLMs 進(jìn)行零樣本時(shí)序預(yù)測(cè)推理。盡管 LLMs 具備強(qiáng)大的學(xué)習(xí)和表示能力,能夠有效地捕捉文本序列數(shù)據(jù)中的復(fù)雜模式和長(zhǎng)期依賴關(guān)系,但作為專注于處理自然語(yǔ)言的「黑匣子」,LLMs 在時(shí)間序列與時(shí)空任務(wù)中的應(yīng)用仍面臨挑戰(zhàn)。相較于傳統(tǒng)的時(shí)間序列模型如 TimesNet,TimeMixer 等,LLMs 以其龐大的參數(shù)和規(guī)??膳c「大象」相提并論。
因此,如何「馴服」這種在自然語(yǔ)言領(lǐng)域訓(xùn)練的 LLMs,使其能夠處理跨越文本模態(tài)的數(shù)值型序列數(shù)據(jù),在時(shí)間序列和時(shí)空任務(wù)中發(fā)揮出強(qiáng)大的推理預(yù)測(cè)能力,已成為當(dāng)前研究的關(guān)鍵焦點(diǎn)。為此,需要進(jìn)行更深入的理論分析,以探索語(yǔ)言和時(shí)序數(shù)據(jù)之間潛在的模式相似性,并有效地將其運(yùn)用于特定的時(shí)間序列和時(shí)空任務(wù)。
本文闡述了如何通過(guò)重編程大語(yǔ)言模型 (LLM Reprogramming) 進(jìn)行通用時(shí)序預(yù)測(cè)。其提出了兩項(xiàng)關(guān)鍵技術(shù),即 (1) 時(shí)序輸入重編程 和 (2) 提示做前綴,將時(shí)序預(yù)測(cè)任務(wù)轉(zhuǎn)換成一個(gè)可以由 LLMs 有效解決的「語(yǔ)言」任務(wù),成功激活了大語(yǔ)言模型做高精度時(shí)序推理的能力。
論文地址:https://openreview.net/pdf?id=Unb5CVPtae
論文代碼:https://github.com/KimMeen/Time-LLM
1. 問(wèn)題背景
時(shí)序數(shù)據(jù)在現(xiàn)實(shí)中廣泛存在,其中時(shí)序預(yù)測(cè)在許多現(xiàn)實(shí)世界里的動(dòng)態(tài)系統(tǒng)中具有非常重要意義,并已得到廣泛研究。與自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)不同,其中單個(gè)大型模型可以處理多個(gè)任務(wù),時(shí)序預(yù)測(cè)模型往往需要專門設(shè)計(jì),以滿足不同任務(wù)和應(yīng)用場(chǎng)景的需求。雖然基于預(yù)訓(xùn)練的基礎(chǔ)模型在 NLP 和 CV 領(lǐng)域取得了巨大的進(jìn)展,但其在時(shí)序領(lǐng)域的發(fā)展仍受限于數(shù)據(jù)稀疏性。最近研究表明,大型語(yǔ)言模型(LLMs)在處理復(fù)雜的標(biāo)記序列時(shí),具備可靠的模式識(shí)別和推理能力。然而,如何有效地對(duì)齊時(shí)序數(shù)據(jù)和自然語(yǔ)言這兩個(gè)模態(tài),并利用大語(yǔ)言模型本身的推理能力處理時(shí)序分析任務(wù),仍然是一個(gè)挑戰(zhàn)。
2. 論文概述
在這項(xiàng)工作中,作者提出了 Time-LLM,它是一個(gè)通用的大語(yǔ)言模型重編程(LLM Reprogramming)框架,將 LLM 輕松用于一般時(shí)間序列預(yù)測(cè),而無(wú)需對(duì)大語(yǔ)言模型本身做任何訓(xùn)練。Time-LLM 首先使用文本原型(Text Prototypes)對(duì)輸入的時(shí)序數(shù)據(jù)進(jìn)行重編程,通過(guò)使用自然語(yǔ)言表征來(lái)表示時(shí)序數(shù)據(jù)的語(yǔ)義信息,進(jìn)而對(duì)齊兩種不同的數(shù)據(jù)模態(tài),使大語(yǔ)言模型無(wú)需任何修改即可理解另一個(gè)數(shù)據(jù)模態(tài)背后的信息。
為了進(jìn)一步增強(qiáng) LLM 對(duì)輸入時(shí)序數(shù)據(jù)和對(duì)應(yīng)任務(wù)的理解,作者提出了提示做前綴(Prompt-as-Prefix,PaP)的范式,通過(guò)在時(shí)序數(shù)據(jù)表征前添加額外的上下文提示與任務(wù)指令,充分激活 LLM 在時(shí)序任務(wù)上的處理能力。在這項(xiàng)工作中,作者在主流的時(shí)序基準(zhǔn)數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn),結(jié)果表明 Time-LLM 能夠在絕大多數(shù)情況下超越傳統(tǒng)的時(shí)序模型,并在少樣本(Few-shot)與零樣本(Zero-shot)學(xué)習(xí)任務(wù)上獲得了大幅提升。
這項(xiàng)工作中的主要貢獻(xiàn)可以總結(jié)如下:
1. 這項(xiàng)工作提出了通過(guò)重編程大型語(yǔ)言模型用于時(shí)序分析的全新概念,無(wú)需對(duì)主干語(yǔ)言模型做任何修改。作者表明時(shí)序預(yù)測(cè)可以被視為另一個(gè)可以由現(xiàn)成的 LLM 有效解決的「語(yǔ)言」任務(wù)。
2. 這項(xiàng)工作提出了一個(gè)通用語(yǔ)言模型重編程框架,即 Time-LLM,它包括將輸入時(shí)序數(shù)據(jù)重新編程為更自然的文本原型表示,并通過(guò)聲明性提示(例如領(lǐng)域?qū)<抑R(shí)和任務(wù)說(shuō)明)來(lái)增強(qiáng)輸入上下文,以指導(dǎo) LLM 進(jìn)行有效的跨域推理。該技術(shù)為多模態(tài)時(shí)序基礎(chǔ)模型的發(fā)展提供了堅(jiān)實(shí)的基礎(chǔ)。
3. Time-LLM 在主流預(yù)測(cè)任務(wù)中的表現(xiàn)始終超過(guò)現(xiàn)有最好的模型性能,尤其在少樣本和零樣本場(chǎng)景中。此外,Time-LLM 在保持出色的模型重編程效率的同時(shí),能夠?qū)崿F(xiàn)更高的性能。大大釋放 LLM 在時(shí)間序列和其他順序數(shù)據(jù)方面尚未開(kāi)發(fā)的潛力。
3. 模型框架
如上方模型框架圖中 ① 和 ② 所示,輸入時(shí)序數(shù)據(jù)先通過(guò) RevIN 歸一化操作,然后被切分成不同 patch 并映射到隱空間。
時(shí)序數(shù)據(jù)和文本數(shù)據(jù)在表達(dá)方式上存在顯著差異,兩者屬于不同的模態(tài)。時(shí)間序列既不能直接編輯,也不能無(wú)損地用自然語(yǔ)言描述,這給直接引導(dǎo)(prompting)LLM 理解時(shí)間序列帶來(lái)了重大挑戰(zhàn)。因此,我們需要將時(shí)序輸入特征對(duì)齊到自然語(yǔ)言文本域上。
對(duì)齊不同模態(tài)的一個(gè)常見(jiàn)方法就是 cross-attention,如模型框架圖中 ③ 所示,只需要把所有詞的 embedding 和時(shí)序輸入特征做一個(gè) cross-attention(其中時(shí)序輸入特征為 Query,所有詞的 embedding 為 Key 和 Value)。但是,LLM 固有的詞匯表很大,因此無(wú)法有效直接將時(shí)序特征對(duì)齊到所有詞上,而且也并不是所有詞都和時(shí)間序列有對(duì)齊的語(yǔ)義關(guān)系。為了解決這個(gè)問(wèn)題,這項(xiàng)工作對(duì)詞匯表進(jìn)行了線形組合來(lái)獲取文本原型,其中文本原型的數(shù)量遠(yuǎn)小于原始詞匯量,組合起來(lái)可以用于表示時(shí)序數(shù)據(jù)的變化特征,例如「短暫上升或緩慢下降」,如上圖所示。
為了充分激活 LLM 在指定時(shí)序任務(wù)上的能力,這項(xiàng)工作提出了提示做前綴的范式,這是一種簡(jiǎn)單且有效的方法,如模型框架圖中 ④ 所示。最近的進(jìn)展表明,其他數(shù)據(jù)模式,如圖像可以無(wú)縫地集成到提示的前綴中,從而基于這些輸入進(jìn)行有效的推理。受這些發(fā)現(xiàn)的啟發(fā),作者為了使他們的方法直接適用于現(xiàn)實(shí)世界的時(shí)間序列,提出了一個(gè)替代問(wèn)題:提示能否作為前綴信息,以豐富輸入上下文并指導(dǎo)重新編程時(shí)間序列補(bǔ)丁的轉(zhuǎn)換?這個(gè)概念被稱為 Prompt-as-Prefix (PaP) ,此外,作者還觀察到它顯著提高了 LLM 對(duì)下游任務(wù)的適應(yīng)能力,同時(shí)補(bǔ)充了補(bǔ)丁的重新編程。通俗點(diǎn)說(shuō),就是把時(shí)間序列數(shù)據(jù)集的一些先驗(yàn)信息,以自然語(yǔ)言的方式,作為前綴 prompt,和對(duì)齊后的時(shí)序特征拼接喂給 LLM,是不是能夠提升預(yù)測(cè)效果?
上圖展示了兩種提示方法。在 Patch-as-Prefix 中,語(yǔ)言模型被提示預(yù)測(cè)時(shí)間序列中的后續(xù)值,以自然語(yǔ)言表達(dá)。這種方法遇到了一些約束:(1)語(yǔ)言模型在無(wú)外部工具輔助下處理高精度數(shù)字時(shí)通常表現(xiàn)出較低的敏感性,這給長(zhǎng)期預(yù)測(cè)任務(wù)的精確處理帶來(lái)了重大挑戰(zhàn);(2)對(duì)于不同的語(yǔ)言模型,需要復(fù)雜的定制化后處理,因?yàn)樗鼈冊(cè)诓煌恼Z(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,并且可能在生成高精度數(shù)字時(shí)采用不同的分詞類型。這導(dǎo)致預(yù)測(cè)以不同的自然語(yǔ)言格式表示,例如 [‘0’, ‘.’, ‘6’, ‘1’] 和 [‘0’, ‘.’, ‘61’],表示 0.61。
在實(shí)踐中,作者確定了構(gòu)建有效提示的三個(gè)關(guān)鍵組件:(1)數(shù)據(jù)集上下文;(2)任務(wù)指令,讓 LLM 適配不同的下游任務(wù);(3)統(tǒng)計(jì)描述,例如趨勢(shì)、時(shí)延等,讓 LLM 更好地理解時(shí)序數(shù)據(jù)的特性。下圖給出了一個(gè)提示示例。
4. 實(shí)驗(yàn)效果
我們?cè)陂L(zhǎng)程預(yù)測(cè)上經(jīng)典的 8 大公開(kāi)數(shù)據(jù)集上進(jìn)行了全面的測(cè)試,如下表所示,Time-LLM 在基準(zhǔn)比較中顯著超過(guò)此前領(lǐng)域最優(yōu)效果,此外對(duì)比直接使用 GPT-2 的 GPT4TS,采用 reprogramming 重編程思想以及提示做前綴(Prompt-as-Prefix)的 Time-LLM 也有明顯提升,表明了該方法的有效性。
此外我們?cè)诳珙I(lǐng)域適應(yīng)的框架內(nèi)評(píng)估重編程的 LLM 的零樣本 zero-shot 的學(xué)習(xí)能力,得益于重編程的能力,我們充分激活了 LLM 在跨領(lǐng)域場(chǎng)景的預(yù)測(cè)能力,如下表所示,Time-LLM 在 zero-shot 場(chǎng)景中也展示出非凡的預(yù)測(cè)效果。
5. 總結(jié)
大型語(yǔ)言模型(LLMs)的快速發(fā)展極大地推動(dòng)了人工智能在跨模態(tài)場(chǎng)景中的進(jìn)步,并促進(jìn)了它們?cè)诙鄠€(gè)領(lǐng)域的廣泛應(yīng)用。然而,LLMs 龐大的參數(shù)規(guī)模和主要針對(duì)自然語(yǔ)言處理(NLP)場(chǎng)景的設(shè)計(jì),為其在跨模態(tài)和跨領(lǐng)域應(yīng)用中帶來(lái)了不少挑戰(zhàn)。鑒于此,我們提出了一種重編程大模型的新思路,旨在實(shí)現(xiàn)文本與序列數(shù)據(jù)之間的跨模態(tài)互動(dòng),并將此方法廣泛應(yīng)用于處理大規(guī)模時(shí)間序列和時(shí)空數(shù)據(jù)。通過(guò)這種方式,我們期望讓 LLMs 如同靈活起舞的大象,能夠在更加廣闊的應(yīng)用場(chǎng)景中展現(xiàn)其強(qiáng)大的能力。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
