自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025 | 讓大模型更懂時序的語境對齊來了!性能更優(yōu)開銷更低

人工智能 新聞
近期,來自東方理工大學(xué)、香港理工大學(xué)和上海交通大學(xué)的研究團(tuán)隊提出了一種新的模態(tài)對齊范式 —— 語境對齊(Context-Alignment)。

大語言模型在迅速發(fā)展的同時,也展現(xiàn)了其在下游任務(wù)中的卓越性能,這主要得益于豐富多樣的大型語料訓(xùn)練庫,使大語言模型掌握了一定的跨領(lǐng)域、跨任務(wù)的知識。

近兩年,越來越多的研究工作利用預(yù)訓(xùn)練的大語言模型來構(gòu)建時間序列分析模型。通過微調(diào)大語言模型,使其能夠理解陌生的時序數(shù)據(jù),進(jìn)而激活其在時序分析任務(wù)中的能力。

近期,來自東方理工大學(xué)、香港理工大學(xué)和上海交通大學(xué)的研究團(tuán)隊提出了一種新的模態(tài)對齊范式 —— 語境對齊(Context-Alignment)。該方法將時間序列數(shù)據(jù)對齊到大語言模型熟悉的語言環(huán)境中,幫助模型更好地理解時間序列,從而激活其在時序分析方面的能力。該論文已被 ICLR 2025 會議接收。

  • 論文標(biāo)題:Context-Alignment: Activating and Enhancing LLMs Capabilities in Time Series
  • 論文鏈接:https://openreview.net/forum?id=syC2764fPc
  • 代碼鏈接:https://github.com/tokaka22/ICLR25-FSCA

以往的微調(diào)方法往往依賴于一個詞庫,通過各種方式將時序數(shù)據(jù)的 token 嵌入與詞庫中的詞匯(例如 rise、fall、periodic、short 等)的 token 嵌入進(jìn)行對齊,也就是說將大語言模型陌生的時序數(shù)據(jù)嵌入轉(zhuǎn)化為其熟悉的語言嵌入。此前研究希望通過這種「詞對齊」的方式幫助大語言模型理解時序數(shù)據(jù),進(jìn)而激活其在時序分析上的能力。

然而,這種依賴詞庫的對齊方式通常需要較大的計算開銷,且是否能有效地幫助大語言模型理解時序數(shù)據(jù)還有待商榷。

語境對齊(Context-Alignment)

本文指出,大語言模型在處理語言時的能力更多源于其對語言邏輯和結(jié)構(gòu)的深刻理解,而不僅僅是對詞匯模式的表面對齊。因此,作者認(rèn)為,即使使用精準(zhǔn)的詞匯來表達(dá)冗長的時間序列數(shù)據(jù),這種方式也只是大量詞匯嵌入的堆疊,缺乏語言的邏輯和結(jié)構(gòu),使得大語言模型難以真正理解其中的含義。

本文中,作者基于語言學(xué)中關(guān)于邏輯結(jié)構(gòu)的層次關(guān)系,提出了語境對齊范式(Context-Alignment)。他們希望將時間序列數(shù)據(jù)融入自然語言的語境中,使大語言模型能夠?qū)r序數(shù)據(jù)整體視為一個語言成分,并通過上下文自主地理解時間序列。

雙尺度語境對齊圖結(jié)構(gòu)

考慮到圖結(jié)構(gòu)往往可以很好地表達(dá)邏輯和結(jié)構(gòu)的關(guān)系,作者在時序數(shù)據(jù)和自然語言 prompt 的多模態(tài)輸入上構(gòu)建了雙尺度圖結(jié)構(gòu),以實現(xiàn)語境對齊。

具體來說,作者利用雙尺度的圖節(jié)點來描述語言結(jié)構(gòu)的層次劃分,在保證信息不丟失的前提下,將冗長的時序數(shù)據(jù)表達(dá)為一個整體,這就好像英語中的賓語從句,從句整體充當(dāng)了一個語言成分,冗長的時序數(shù)據(jù)也應(yīng)該被視為輸入中的一個整體成分。利用有向邊表達(dá)時序和 prompt 輸入之間的邏輯關(guān)系。從而將時序數(shù)據(jù)對齊到大語言模型熟悉的語境中。

雙尺度圖結(jié)構(gòu)包括細(xì)粒度圖結(jié)構(gòu)粗粒度圖結(jié)構(gòu),其中:

  • 細(xì)粒度圖結(jié)構(gòu)將每個 token 視為一個節(jié)點,強(qiáng)調(diào) token 之間的相互獨立性,保留時序的具體信息。通過兩個線性層(如圖 1 中所示的),將連續(xù)且冗長的時序數(shù)據(jù)嵌入和 prompt 嵌入分別映射為兩種粗粒度節(jié)點。
  • 粗粒度圖結(jié)構(gòu)將連續(xù)的、模態(tài)一致的 tokens 映射為一個節(jié)點,表示了模態(tài)的整體性。

根據(jù) prompt 的內(nèi)容,在粗粒度和細(xì)粒度圖中構(gòu)建表示邏輯關(guān)系的有向邊(有向邊表示信息的傳遞方向)。例如,當(dāng) prompt 為「predict future sequences using previous data」時,有向邊由表示「previous data」的時序節(jié)點指向 prompt 節(jié)點,因為時序數(shù)據(jù)是 prompt 的信息來源。粗粒度有向邊是細(xì)粒度有向邊的簡化。

雙尺度圖結(jié)構(gòu)顯式地體現(xiàn)了時序數(shù)據(jù)和自然語言 prompt 之間的語言層級結(jié)構(gòu)和邏輯傳遞關(guān)系。粗粒度圖結(jié)構(gòu)和細(xì)粒度圖結(jié)構(gòu)在經(jīng)過圖卷積網(wǎng)絡(luò)(GCN)對節(jié)點嵌入進(jìn)行更新后,通過一個可學(xué)習(xí)的交互機(jī)制(根據(jù)圖 1 中的和分配矩陣計算,參考原文公式 4),使粗粒度節(jié)點能夠向細(xì)粒度節(jié)點傳遞更新后的信息,細(xì)粒度節(jié)點在完成自己的更新后整合來自粗粒度節(jié)點的信息。最后,粗粒度節(jié)點和細(xì)粒度節(jié)點嵌入將分別輸入預(yù)訓(xùn)練的大語言模型。

就其效果而言,該雙尺度圖結(jié)構(gòu)可以嵌入至大語言模型的任意層,并可多次使用,以強(qiáng)化大語言模型對語境對齊的記憶能力。

圖 1 雙尺度語境對齊圖結(jié)構(gòu)

VCA 和 FSCA

由于不同的 prompt 內(nèi)容對應(yīng)不同的邏輯結(jié)構(gòu)關(guān)系,因此雙尺度語境對齊圖結(jié)構(gòu)依賴于具體的 prompt 內(nèi)容。作者提出了兩種使用雙尺度語境對齊圖結(jié)構(gòu)的具體方法。

1. Vanilla Context-Alignment(VCA)

VCA 是最直接的實現(xiàn)方式,其輸入模式為時序數(shù)據(jù) + prompt。例如,在預(yù)測任務(wù)中,prompt 為「predict future sequences using previous data」,其圖結(jié)構(gòu)如圖 1 中的 VCA 所示。在分類任務(wù)中,輸入為「時序數(shù)據(jù) + Predict category using previous data」,其圖結(jié)構(gòu)與預(yù)測任務(wù)相同。VCA 利用最簡單直接的 prompt,通過雙尺度圖結(jié)構(gòu)實現(xiàn)語境對齊。

2. Few-Shot Context-Alignment(FSCA)

FSCA 是 VCA 的進(jìn)階版本,結(jié)合了 Few-Shot prompting 技術(shù)以進(jìn)一步提升性能。該方法的輸入包括例子 + 時序數(shù)據(jù) + prompt。在預(yù)測任務(wù)中,prompt 依然為「predict future sequences using previous data」,但需要將原始?xì)v史時序數(shù)據(jù)分成兩部分構(gòu)建一個例子:前半段數(shù)據(jù)作為后半段數(shù)據(jù)的歷史輸入,后半段數(shù)據(jù)作為利用前半段數(shù)據(jù)預(yù)測的 ground truth。這一示例有助于大語言模型更好地理解預(yù)測任務(wù)。其圖結(jié)構(gòu)如圖 1 中的「FSCA in TS Forecasting」所示。

圖 2 展示了 FSCA 作為一個即插即用的模塊被引入到預(yù)訓(xùn)練的大語言模型中進(jìn)行微調(diào)。在分類任務(wù)中,F(xiàn)SCA 需要抽取一組時序數(shù)據(jù)和其對應(yīng)的標(biāo)簽構(gòu)成一個固定的例子,再進(jìn)行分類預(yù)測。其圖結(jié)構(gòu)如圖 1 中的「FSCA in TS Classification」所示。

圖 2 利用 FSCA 進(jìn)行時序預(yù)測

主要實驗結(jié)果

各種任務(wù)上的表現(xiàn)

該研究展示了長期預(yù)測、短期預(yù)測、Few-Shot 預(yù)測、Zero-Shot 預(yù)測以及分類任務(wù)的實驗結(jié)果。

實驗表明,F(xiàn)SCA 在多個任務(wù)中均取得了更優(yōu)的性能。尤其在 Few-Shot 預(yù)測和 Zero-Shot 預(yù)測中,F(xiàn)SCA 分別超越次優(yōu)方法 6.7% 和 13.3%。FSCA 在 Few-Shot 和 Zero-Shot 預(yù)測任務(wù)中的出色表現(xiàn)表明,雙尺度圖結(jié)構(gòu)成功引入了基于邏輯結(jié)構(gòu)的先驗知識。這進(jìn)一步驗證了正確的結(jié)構(gòu)劃分和邏輯引導(dǎo)對于大語言模型(LLM)理解時序數(shù)據(jù)的重要性。

表 1 長期預(yù)測結(jié)果對比

表 2 短期預(yù)測結(jié)果對比

表 3 Few-shot 預(yù)測結(jié)果對比

表 4 Zero-shot 預(yù)測結(jié)果對比

圖 3 分類結(jié)果對比

計算效率對比

所提出的 FSCA 在計算效率方面僅次于 GPT4TS(該方法僅在 LLM 的輸入和輸出階段加入了線性層)。

相比之下,其他流行方法在實現(xiàn)詞 token 對齊時往往需要付出較大的計算代價。此外,這些方法通常包含額外的操作。例如,Time-LLM 在每次迭代中都會重復(fù)生成提示并檢索相應(yīng)的嵌入,進(jìn)一步增加了計算開銷。

相較而言,F(xiàn)SCA 中的雙尺度 GNN 僅引入了兩個可學(xué)習(xí)矩陣,以及兩個用于將細(xì)粒度節(jié)點嵌入轉(zhuǎn)化為粗粒度節(jié)點嵌入的可學(xué)習(xí)線性層。這些操作本質(zhì)上是簡單的矩陣計算,極大地降低了計算復(fù)雜性。因此,F(xiàn)SCA 在計算效率上顯著優(yōu)于以往基于詞 token 對齊的方法,在保證性能提升的同時有效減少了計算資源的消耗。

總結(jié)

綜上所述,本文首次提出了語境對齊(Context-Alignment)的概念,并基于雙尺度圖網(wǎng)絡(luò)結(jié)構(gòu)和 Few-Shot prompting 技術(shù)設(shè)計了 FSCA 模型。與以往流行的基于詞 token 對齊的方法相比,F(xiàn)SCA 在實現(xiàn)更優(yōu)性能的同時顯著降低了計算開銷。此外,原文還提供了更為詳盡的消融實驗、分析實驗和對比實驗結(jié)果,全面驗證了 FSCA 的有效性和優(yōu)勢。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-17 10:25:28

2024-12-18 10:22:49

2024-01-15 16:41:00

模型數(shù)據(jù)

2024-03-27 13:34:00

模型訓(xùn)練

2023-03-03 13:06:34

大腦分層預(yù)測

2024-08-13 15:00:00

大模型提示學(xué)習(xí)

2023-11-23 13:50:00

Python代碼

2025-04-27 09:10:00

AI模型機(jī)器學(xué)習(xí)

2025-02-10 00:25:00

命令模式擴(kuò)展機(jī)制系統(tǒng)

2025-02-12 09:20:12

2024-05-07 13:44:57

2024-02-27 11:45:59

2019-09-29 16:17:25

Java代碼性能編程語言

2025-03-17 12:48:50

2010-09-17 14:04:45

大蜘蛛

2013-12-05 09:54:50

FusionCubeHANA分布式架構(gòu)

2024-06-06 19:14:27

2022-02-16 10:02:04

深度學(xué)習(xí)模型人工智能
點贊
收藏

51CTO技術(shù)棧公眾號