MTBench:用于金融時序推理和回答的多模態(tài)時間序列基準
“MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering”
時間序列與文本數(shù)據(jù)的結(jié)合對理解復(fù)雜現(xiàn)實現(xiàn)象至關(guān)重要,尤其在金融和天氣預(yù)測領(lǐng)域?,F(xiàn)有基準缺乏對時間序列數(shù)據(jù)與文本之間復(fù)雜關(guān)聯(lián)的關(guān)注,未能處理文本與時間序列數(shù)據(jù)矛盾的情況。
本文提出MTBench基準,旨在評估LLMs在金融和天氣領(lǐng)域的多任務(wù)和多模態(tài)推理能力。MTBench通過將時間序列數(shù)據(jù)與相關(guān)文本信息對齊,促進跨模態(tài)互動,支持復(fù)雜推理任務(wù)。
摘要
本文提出MTBench(Multimodal Time Series Benchmark ,多模態(tài)時間序列基準),旨在評估大語言模型在金融和天氣領(lǐng)域的時間序列與文本理解能力。MTBench包含配對的時間序列和文本數(shù)據(jù),如金融新聞與股票價格變動、天氣報告與歷史溫度記錄。
同時提供了一個綜合測試平臺,支持模型對結(jié)構(gòu)化數(shù)值趨勢和非結(jié)構(gòu)化文本敘述的聯(lián)合推理。設(shè)計了多樣化任務(wù),包括時間序列預(yù)測、語義和技術(shù)趨勢分析、新聞驅(qū)動的問答,考察模型捕捉時間依賴性和提取文本關(guān)鍵信息的能力。評估當前最先進的LLM在MTBench上的表現(xiàn),發(fā)現(xiàn)其在捕捉長期依賴性、解釋因果關(guān)系和融合多模態(tài)信息方面存在顯著挑戰(zhàn)。
簡介
時間序列與文本數(shù)據(jù)的結(jié)合對理解復(fù)雜現(xiàn)實現(xiàn)象至關(guān)重要,尤其在金融和天氣預(yù)測領(lǐng)域?,F(xiàn)有的大型語言模型(LLMs)在跨時間序列和文本推理方面的能力尚未充分探索。現(xiàn)有的多模態(tài)時間序列-文本數(shù)據(jù)集主要集中于預(yù)測任務(wù),忽視了因果推理和深度分析等推理驅(qū)動的挑戰(zhàn)。現(xiàn)有基準缺乏對時間序列數(shù)據(jù)與文本之間復(fù)雜關(guān)聯(lián)的關(guān)注,未能處理文本與時間序列數(shù)據(jù)矛盾的情況。
本文提出MTBench基準,旨在評估LLMs在金融和天氣領(lǐng)域的多任務(wù)和多模態(tài)推理能力。MTBench通過將時間序列數(shù)據(jù)與相關(guān)文本信息對齊,促進跨模態(tài)互動,支持復(fù)雜推理任務(wù)。研究發(fā)現(xiàn),LLMs在需要細致時間理解和多模態(tài)信息整合的任務(wù)上表現(xiàn)不佳,但相關(guān)文本信息能提升時間序列任務(wù)的表現(xiàn)。
MTBench的貢獻包括:引入復(fù)雜推理和問答挑戰(zhàn)的多模態(tài)時間序列基準;強調(diào)時間序列與文本之間的關(guān)系;提供靈活的框架以生成可控的數(shù)據(jù)集。
相關(guān)工作
LLMs用于時間序列分析。用于大型語言模型(LLMs)在時間序列分析中的應(yīng)用日益受到關(guān)注,涉及預(yù)測、異常檢測和金融建模等領(lǐng)域。一些方法通過對齊預(yù)訓(xùn)練嵌入與時間序列數(shù)據(jù),或使用文本原型重編輸入來提升推理能力。LLMs在可解釋的金融預(yù)測和社會事件驅(qū)動預(yù)測中取得了成功,強調(diào)了針對時間序列數(shù)據(jù)的基礎(chǔ)模型和標準化跨模態(tài)基準的需求。
時間序列基準數(shù)據(jù)集?,F(xiàn)有的時間序列基準多基于經(jīng)典任務(wù)特定數(shù)據(jù)集,逐漸關(guān)注文本-時間序列配對數(shù)據(jù)集的開發(fā)。Liu等人提出的Time-MMD數(shù)據(jù)集樣本點較少,Karger等人的ForecastBench主要針對事件預(yù)測,而Cai等人的TimeseriesExam未考慮具體應(yīng)用。提出的基準將專注于基于應(yīng)用特定使用場景評估模型在多任務(wù)上的表現(xiàn)。
金融新聞基準數(shù)據(jù)集。現(xiàn)有金融基準數(shù)據(jù)集主要集中于單一數(shù)據(jù)模態(tài),F(xiàn)inanceBench和FinDABench僅評估文本任務(wù),缺乏時間序列整合。Islam等人提出的金融援助預(yù)測基準專注于時間序列,不包含文本數(shù)據(jù)。PIXIU和FinBen集成了時間序列和文本,但主要來源于Twitter,而我們的基準則整理了金融新聞。最新的FNSPID數(shù)據(jù)集將股價時間序列與金融新聞對齊,專注于股價預(yù)測。我們的數(shù)據(jù)集不僅限于價格預(yù)測,還涵蓋更廣泛的金融任務(wù),如金融指標預(yù)測,利用歷史金融記錄和新聞來源進行全面評估。
天氣基準數(shù)據(jù)集。天氣數(shù)據(jù)集基準主要有兩個方向:數(shù)值天氣預(yù)報模型的基準和時序預(yù)測的LLM評估。現(xiàn)有的大規(guī)模天氣基準數(shù)據(jù)集通常不適合評估LLM的零-shot性能。WeatherBench和WeatherBench 2是標準化的基準,使用重分析數(shù)據(jù),提供更高分辨率和額外變量。Huber等人提出Weather2K,結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化天氣數(shù)據(jù)。評估時序LLM性能仍面臨高質(zhì)量文本-時間序列數(shù)據(jù)對的缺乏。提議的基準數(shù)據(jù)集通過生成嚴重天氣事件的新聞來解決這一問題,并擴展了時間跨度和地點數(shù)量。
數(shù)據(jù)集收集與預(yù)處理
本文選擇金融和天氣領(lǐng)域進行數(shù)據(jù)集收集,因其在評估大語言模型的多模態(tài)整合和推理能力方面具有重要應(yīng)用意義。金融市場中,理解股價與新聞情緒的關(guān)系對風險評估、算法交易和經(jīng)濟預(yù)測至關(guān)重要。天氣預(yù)測在氣候監(jiān)測、供應(yīng)鏈物流和災(zāi)害準備中發(fā)揮關(guān)鍵作用。這兩個領(lǐng)域因動態(tài)外部因素、不確定性和事件驅(qū)動的波動性而具有內(nèi)在復(fù)雜性。
原始數(shù)據(jù)收集
金融數(shù)據(jù)集:
- 收集了200,000個金融新聞文章URL,涵蓋2021年5月至2023年9月。
- 從中提取了20,000篇新聞,確保文章長度分布均衡。
- 使用GPT-4o為每篇文章注釋元數(shù)據(jù),包括內(nèi)容類型、時間效應(yīng)范圍和情感。
- 股票時間序列數(shù)據(jù)與新聞文章對應(yīng),采用不同粒度的歷史股價數(shù)據(jù)。
- 預(yù)測設(shè)置:短期預(yù)測(7天股價,5分鐘粒度)和長期預(yù)測(30天股價,1小時粒度)。
天氣數(shù)據(jù)集:
- 選擇50個美國機場,使用GHCN-H數(shù)據(jù)集,數(shù)據(jù)時間范圍為2003至2020年,記錄溫度等多個氣象屬性。
- 重點關(guān)注溫度數(shù)據(jù),未來可擴展為多通道天氣分析。
- 使用風暴事件數(shù)據(jù)庫記錄1950至2020年間的風暴事件,包括類型、地點、傷亡等信息,提供復(fù)雜天氣條件的上下文。
數(shù)據(jù)對齊和預(yù)處理
財務(wù)新聞與股票價格的匹配
通過時間戳對齊新聞與股票時間序列,進行語義分析,發(fā)現(xiàn)并非所有新聞準確反映未來股價趨勢。
數(shù)據(jù)集分類:
- 一致新聞數(shù)據(jù)集:80%對齊對,新聞情感與未來趨勢一致。
- 不一致新聞數(shù)據(jù)集:20%對齊對,情感與實際價格變化不符。
一致數(shù)據(jù)集用于評估LLM對有用信息的預(yù)測能力,不一致數(shù)據(jù)集用于測試模型識別誤導(dǎo)信息的能力。
天氣事件報告與記錄對齊
將風暴事件與最近機場天氣數(shù)據(jù)配對,采用50公里半徑進行匹配,合并相關(guān)事件。利用LLM生成合成新聞文章,補充缺失的敘述信息。
使用新聞文章結(jié)束時間作為錨點,獲取前7天的天氣數(shù)據(jù)預(yù)測次日溫度。處理NCEI數(shù)據(jù)集中的不規(guī)則時間間隔,通過計算每小時平均溫度并插值填補缺失值,得到每日24小時和過去7天168個數(shù)據(jù)點。將插值后的7天和14天溫度數(shù)據(jù)與40篇最長新聞文章配對。研究兩種預(yù)測場景:短期預(yù)測(用過去7天預(yù)測次日)和長期預(yù)測(用過去14天預(yù)測未來3天)。
數(shù)據(jù)統(tǒng)計
金融數(shù)據(jù)集:包含20,000篇預(yù)處理和標記的金融新聞文章,分析市場趨勢、情感和敘事;還有兩個配對的文章-時間序列數(shù)據(jù)集,各20,000對,研究金融新聞與市場波動的關(guān)系。
天氣數(shù)據(jù)集:為50個美國氣象站生成2,000對時間序列和新聞,每站40對,包含7或14天的溫度數(shù)據(jù)和描述嚴重天氣事件的合成新聞。
金融數(shù)據(jù)集分類:
- 內(nèi)容類型:市場新聞與分析、投資與股票分析、交易與投機投資。
- 時間效應(yīng)范圍:回顧性分析、當前市場洞察、預(yù)測與展望。
- 情感:根據(jù)潛在市場影響標記情感極性。
天氣數(shù)據(jù)集分布:主要為短期、高頻天氣事件,常見有雷暴風、閃電洪水和冰雹,短期事件(少于六小時)占主導(dǎo),長時間事件較少,適合短期氣象擾動研究。
任務(wù)設(shè)計
時序預(yù)測任務(wù)
任務(wù)目標:基于歷史觀察預(yù)測未來時間序列值,結(jié)合文本新聞進行多模態(tài)信息整合。
領(lǐng)域:金融和天氣,需捕捉時間依賴性。
評估設(shè)置:金融長期預(yù)測基于30天歷史數(shù)據(jù),天氣長期預(yù)測基于14天歷史數(shù)據(jù)。
評估指標:金融使用MAE和MAPE,天氣使用MSE和MAE。
語義趨勢分析
趨勢計算:金融時間序列通過最后與第一個數(shù)據(jù)點的百分比變化計算趨勢;天氣數(shù)據(jù)通過計算輸入天數(shù)的日均溫度斜率來確定趨勢,短期預(yù)測則比較最后輸入日與未來日的日均溫度差。
趨勢標簽分箱:為便于分類,計算的百分比變化被離散化為預(yù)定義的區(qū)間,金融數(shù)據(jù)有3-way和5-way分類,天氣數(shù)據(jù)僅有3-way分類。
評估指標:使用標簽分類準確率評估模型對趨勢標簽的正確分配能力。
技術(shù)指標預(yù)測
技術(shù)指標預(yù)測任務(wù)評估LLM在金融和天氣相關(guān)指標預(yù)測的能力。
金融數(shù)據(jù)指標:
- MACD:12日與26日指數(shù)移動平均的差值,識別動量變化和趨勢反轉(zhuǎn)。
- 布林帶上軌:上軌 = 簡單移動平均 + k · 標準差,評估波動性和超買情況。
天氣數(shù)據(jù)指標:
- 次日最高和最低溫度預(yù)測。
- 次日溫差預(yù)測。
任務(wù)為回歸任務(wù),使用均方誤差(MSE)和平均絕對誤差(MAE)評估,幫助人們做出決策。
新聞驅(qū)動的問答
現(xiàn)有的多模態(tài)時間序列數(shù)據(jù)集忽視了推理密集型任務(wù),如問答(QA),限制了評估LLM整合文本和時間序列數(shù)據(jù)的能力。提出了一個基于新聞的QA任務(wù),包括兩個子任務(wù):相關(guān)性預(yù)測和多項選擇QA。
相關(guān)性預(yù)測旨在評估LLM識別金融新聞情感與未來股價趨勢之間關(guān)系的能力,分為3類(正面、中性、負面)和5類(強正面、適度正面、無關(guān)系、適度負面、強負面)。真實標簽通過GPT-4o生成,確保與實際市場波動一致,挑戰(zhàn)LLM整合文本情感與數(shù)值時間序列數(shù)據(jù)的理解。許多股票-新聞對表現(xiàn)出負相關(guān)性,給LLM帶來挑戰(zhàn)。
多項選擇QA評估LLM在多模態(tài)文本分析和時間序列理解上的能力。通過生成正確和錯誤的陳述,基于股票價格時間序列和相關(guān)新聞。正確陳述基于新聞內(nèi)容、時間序列趨勢或有效因果關(guān)系。錯誤陳述源于虛假聲明、誤解事件或因果推理錯誤。任務(wù)挑戰(zhàn)模型理解文本和數(shù)值數(shù)據(jù)的語義及其因果關(guān)系。
實驗
實驗設(shè)置
評估任務(wù)使用的模型包括GPT-4o、Claude-Sonnet-3.5-20241022、Gemini-2.0-Flash、LLaMA 3.1-8B和DeepSeek-Chat,特定金融任務(wù)還使用OpenAIo1。
模型在時間序列和時間序列+文本設(shè)置下進行評估,除了新聞驅(qū)動的問答任務(wù)。
金融數(shù)據(jù)集模型溫度設(shè)置:所有任務(wù)0.7,天氣回歸任務(wù)0.5,天氣分類任務(wù)0.2。
實驗結(jié)果
時間序列預(yù)測在短期(如7天輸入,1天輸出)表現(xiàn)優(yōu)于長期預(yù)測,因捕捉復(fù)雜時間依賴性更具挑戰(zhàn)。融入文本信息顯著提升預(yù)測準確性:股票預(yù)測平均提高9.78%,溫度預(yù)測提高6.63%。
股票預(yù)測中,文本信息的優(yōu)勢更明顯,因市場受金融新聞影響較大;而溫度預(yù)測受物理規(guī)律影響較穩(wěn)定。DeepSeek模型在長期溫度預(yù)測中,文本整合反而降低準確性,可能存在模態(tài)干擾。LLM在生成特定長度輸出時常出現(xiàn)不一致,尤其在長期設(shè)置中,需進一步優(yōu)化模型訓(xùn)練以滿足輸出要求。
股票趨勢預(yù)測:LLMs在短期(7天)和長期(30天)股票價格趨勢預(yù)測中表現(xiàn)不同,短期預(yù)測更具挑戰(zhàn)性。使用Chain-of-Thought(CoT)提示技術(shù)提高了預(yù)測的可靠性。文本數(shù)據(jù)的引入通常提升了預(yù)測準確性,但在過去趨勢分類中有時會降低性能。
技術(shù)指標計算:在預(yù)測MACD和布林帶上限時,文本數(shù)據(jù)的加入顯著提高了預(yù)測準確性。OpenAI-o1在大多數(shù)任務(wù)中表現(xiàn)最佳,MACD對文本輸入的依賴性較低。
溫度差異預(yù)測:結(jié)合文本數(shù)據(jù)的溫度預(yù)測表現(xiàn)更佳,但溫度差異預(yù)測最具挑戰(zhàn)性,誤差較高。整體趨勢顯示多模態(tài)學(xué)習(xí)在時間序列預(yù)測中的重要性。
短期與長期預(yù)測:LLMs在30天預(yù)測中表現(xiàn)優(yōu)于7天,表明短期市場波動更難預(yù)測。短期多項選擇問答(MCQA)相對簡單,模型在處理長期推理時面臨更多復(fù)雜性。
模型偏差:在5類分類設(shè)置中,LLMs傾向于將新聞與股票價格運動的關(guān)系分類為中等正相關(guān),顯示出對相關(guān)性動態(tài)的捕捉能力不足,難以分析負相關(guān)或弱相關(guān)。
總結(jié)和未來工作
MTBench是一個評估LLM在多模態(tài)時間序列和文本數(shù)據(jù)推理能力的基準,強調(diào)文本敘述與數(shù)值趨勢的語義和時間對齊。評估結(jié)果顯示,LLM在某些方面表現(xiàn)良好,但在復(fù)雜的時間推理、因果推斷和跨模態(tài)綜合方面存在困難。MTBench主要關(guān)注金融和天氣數(shù)據(jù),未來可擴展至醫(yī)療和社會科學(xué)等領(lǐng)域。研究評估了現(xiàn)成的LLM,未來研究可探索微調(diào)策略和架構(gòu)改進以提升時間推理能力。
本文轉(zhuǎn)載自??靈度智能??,作者:靈度智能
