港大發(fā)布智能交通大模型全家桶OpenCity!打破時空零樣本預(yù)測壁壘,訓(xùn)練速度最多提升50倍
精確的交通流量預(yù)測對于提升城市規(guī)劃和交通管理效率至關(guān)重要,有助于更合理地分配資源并提升出行質(zhì)量。
然而,現(xiàn)有的預(yù)測系統(tǒng)在處理未知區(qū)域的交通預(yù)測,以及進行長期預(yù)測時,常常無法達到預(yù)期效果,這些挑戰(zhàn)主要源于交通數(shù)據(jù)在空間和時間上的不一致性,以及在不同時間和地點的顯著變化。
基于「開發(fā)一種具有高度通用性、魯棒性和適應(yīng)性的時空預(yù)測模型」的思路,香港大學(xué)、華南理工大學(xué)等機構(gòu)的研究人員提出了一個創(chuàng)新的基座模型OpenCity,能夠識別并整合來自多個數(shù)據(jù)源的時空模式,以增強在不同城市環(huán)境中的零樣本學(xué)習(xí)能力。
論文鏈接:http://arxiv.org/abs/2408.10269
代碼鏈接:https://github.com/HKUDS/OpenCity
OpenCity結(jié)合了Transformer和圖神經(jīng)網(wǎng)絡(luò)技術(shù),以捕捉交通數(shù)據(jù)中的復(fù)雜時空關(guān)聯(lián)。通過在廣泛的、多樣化的交通數(shù)據(jù)集上進行預(yù)訓(xùn)練,OpenCity能夠掌握豐富且具有廣泛適用性的特征表示,這些特征適用于多種交通預(yù)測情境。
實驗結(jié)果顯示,OpenCity在零樣本學(xué)習(xí)方面取得了顯著成效。
此外,OpenCity的可擴展性也得到了驗證,這表明有望構(gòu)建一個能夠滿足所有交通預(yù)測需求的系統(tǒng),并且能夠以較低的額外成本適應(yīng)新的城市環(huán)境。
概述
現(xiàn)有問題
- C1. 空間泛化:現(xiàn)有的交通預(yù)測模型在空間泛化方面存在限制,難以適應(yīng)不同地區(qū)因基礎(chǔ)設(shè)施和人口特征不同而表現(xiàn)出的各異交通模式。在現(xiàn)實條件下,全面部署傳感器來收集數(shù)據(jù)并不可行。因此,開發(fā)一種能夠在有限數(shù)據(jù)支持下適應(yīng)新區(qū)域的模型顯得格外關(guān)鍵。這種模型能夠降低跨城市部署的成本,并確保交通預(yù)測系統(tǒng)在多元化的城市環(huán)境中有效運作,無需頻繁重訓(xùn)練或調(diào)整。
- C2. 時間泛化與長期預(yù)測:現(xiàn)有的交通預(yù)測模型雖然能夠較好地處理短期預(yù)測(如未來一小時內(nèi)),但在進行數(shù)小時甚至數(shù)天的長期預(yù)測時則效果不佳。模型難以適應(yīng)城市環(huán)境中隨時間變化而變化的復(fù)雜交通模式,這一點限制了城市規(guī)劃者和交通管理者制定有效長期策略的能力。
- C3. 通用表征學(xué)習(xí)與時空異質(zhì)泛化:開發(fā)能夠廣泛適用的交通模型,關(guān)鍵在于開發(fā)能夠廣泛適用的交通模型,通過學(xué)習(xí)通用的交通動態(tài)特征實現(xiàn)泛化。這種泛化學(xué)習(xí)使得模型能夠適應(yīng)不同的應(yīng)用場景,即便是在缺乏特定場景訓(xùn)練數(shù)據(jù)的情況下也能運行??紤]到城市交通的多樣性及其時空分布的顯著變化,模型需要具備適應(yīng)這些變化的能力,以保持其功能性和靈活性。
圖1 左圖展示了不同交通數(shù)據(jù)集之間的數(shù)據(jù)分布差異,突顯了開發(fā)能夠適應(yīng)這些分布差異的模型的必要性。右圖則比較了OpenCity在零樣本條件下的表現(xiàn)與使用全樣本數(shù)據(jù)的基線模型的表現(xiàn)。結(jié)果表明,盡管OpenCity面對時空異質(zhì)性分布偏移的挑戰(zhàn),其性能仍可與全樣本基線模型匹敵
論文貢獻
(1)通用時空建模。OpenCity針對城市交通在不同地區(qū)及時間內(nèi)的多樣性和變化進行專門設(shè)計。
(2)卓越的零樣本預(yù)測能力。OpenCity在未經(jīng)特定區(qū)域訓(xùn)練的情況下,展示了超越常規(guī)模型的性能,這突顯了其泛化特征學(xué)習(xí)的能力,并允許該模型在新環(huán)境中快速部署,減少了重訓(xùn)練的需求。
(3)快速適應(yīng)性。OpenCity在多個時空預(yù)測任務(wù)中顯示了其廣泛的適用性,能夠快速地適應(yīng)各種場景,實現(xiàn)靈活的部署。
(4)擴展能力。OpenCity展現(xiàn)了良好的擴展?jié)摿Γ@意味著它能夠在幾乎無需額外訓(xùn)練的情況下有效地適應(yīng)未知環(huán)境。
方法
圖2 OpenCity整體框架
用于分布偏移泛化的時空嵌入
上下文歸一化
傳統(tǒng)方法通常依賴于訓(xùn)練數(shù)據(jù)的統(tǒng)計特征,例如均值和標(biāo)準(zhǔn)差,來進行數(shù)據(jù)的標(biāo)準(zhǔn)化處理。然而,當(dāng)測試數(shù)據(jù)表現(xiàn)出與訓(xùn)練數(shù)據(jù)在地理空間上無重疊的異質(zhì)性時,這些統(tǒng)計參數(shù)可能不再適用,也難以適應(yīng)。為了克服這一挑戰(zhàn)并滿足零樣本交通預(yù)測的需求,采用了實例歸一化IN(?)處理數(shù)據(jù)。
該方法利用每個個區(qū)域的單個輸入實例的均值μ(Xr)和標(biāo)準(zhǔn)差σ(Xr)進行數(shù)據(jù)標(biāo)準(zhǔn)化,而不依賴于整個訓(xùn)練集的統(tǒng)計信息。相關(guān)研究表面實例標(biāo)準(zhǔn)化能有效減輕訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)之間分布差異的問題,形式化如下:
用于高效長期預(yù)測的Patch嵌入
OpenCity旨在應(yīng)對長期交通預(yù)測的復(fù)雜性,特別是處理增加的輸入時間步長,這會導(dǎo)致計算資源和內(nèi)存需求顯著增加。為減輕這一負擔(dān),采納了一種基于時間維度的Patch分割策略。在此策略中,設(shè)定了Patch長度P,用于確定每個Patch包含的時間步數(shù);同時設(shè)置了步長S,用于定義連續(xù)Patch之間的重疊程度。采用此Patch處理方式后,輸入數(shù)據(jù)的形狀發(fā)生了變化。
,這里??為塊的數(shù)量,
。
研究人員選擇將一小時的交通數(shù)據(jù)設(shè)定為一個Patch的長度,并設(shè)置步長S=P,這樣的配置幫助模型有效捕捉并適應(yīng)交通數(shù)據(jù)在更長時間跨度的變化趨勢。
此外,采用Patch處理方法顯著減少了對計算和內(nèi)存的需求,從而實現(xiàn)了更高效和可擴展的長期交通預(yù)測。
Patch處理完成后,對數(shù)據(jù)應(yīng)用線性變換和正余弦位置編碼PE,以獲取最終的時空嵌入表示。
被用于后續(xù)模塊的輸入,如下:
時空上下文編碼
為了捕獲交通數(shù)據(jù)中的復(fù)雜時空模式,OpenCity模型整合了時間與空間的上下文信息。
通過充分考慮這兩個維度的多個因素,OpenCity能更全面地洞察影響交通模式的多元因素。這種整體方法使得該框架能夠在各種時間段和地理區(qū)域中提供更精確的預(yù)測。
時間上下文編碼
為了使OpenCity成功地捕捉交通數(shù)據(jù)中的獨特時間模式,利用了諸如一天中的時間和一周中的某一天
等時間特征來識別周期性關(guān)系,并通過線性層轉(zhuǎn)換這些時間特征,生成反映時間上下文的特定嵌入。通過精確模擬交通流的周期性特征,的方法能夠在長期預(yù)測中達到高精度。
時間上下文的編碼過程融合了Patch操作和時空嵌入的對齊,具體實現(xiàn)如下:
空間上下文編碼
鑒于地理特征的多樣性,每個區(qū)域的交通模式具有其特有的特征(例如,交通樞紐的流量通常較高)。為了有效捕捉這些區(qū)域性特征,在交通網(wǎng)絡(luò)模型中引入了空間上下文。
首先,進行了拉普拉斯矩陣的標(biāo)準(zhǔn)化處理:,其中I和D分別是單位矩陣和度數(shù)矩陣。
然后執(zhí)行特征值分解,得到,其中,U和Λ分別代表特征值和特征向量。
選擇了最小的k個非零特征向量作為區(qū)域嵌入s,用以編碼交通網(wǎng)絡(luò)的結(jié)構(gòu)特性。這些嵌入隨后經(jīng)過一個線性層的處理,用以產(chǎn)生最終的空間編碼。
時空依賴建模
時間依賴建模
OpenCity利用新提出的TimeShift Transformer架構(gòu),專注于捕捉時間依賴性。
該方法從兩個主要方面識別交通模式:
(1)周期性交通模式。模型能夠識別交通中的周期性和重復(fù)模式,如每小時、每日和每周的循環(huán)。通過對這些周期性變化的編碼,的方法可以更精確地解析交通網(wǎng)絡(luò)中的規(guī)律性。
通過時間嵌入D和空間嵌入C來捕獲交通模式的周期性特征。目標(biāo)在于探索歷史交通模式與未來趨勢之間的關(guān)系。時間嵌入被細分為歷史時間信號和未來時間信號兩部分:,
。
的模型專門建模了歷史時間和未來時間的映射模式,這使得它能夠更有效地學(xué)習(xí)和應(yīng)用交通時間序列的周期性特征。此過程通過構(gòu)建一個時間轉(zhuǎn)移的多頭注意力機制來完成,其中將未來的時空嵌入作為查詢(Query),將歷史的時空嵌入作為鍵(Key),并將歷史時空數(shù)據(jù)的表示作為值(Value)。
其中,和
為權(quán)重矩陣,δa為dropout操作。
為更新后的空間嵌入,
為來自第h個注意力頭的周期關(guān)聯(lián)編碼模塊的輸出。
引入RMSNorm以提升訓(xùn)練過程的穩(wěn)定性。通過明確地建立歷史與未來時間信息之間的聯(lián)系,OpenCity具備了識別周期性的時空交通模式的能力。
(2)動態(tài)交通趨勢。除周期性模式外,時間編碼器還能捕捉交通數(shù)據(jù)隨時間發(fā)展的復(fù)雜和非線性動態(tài)趨勢。
該模塊旨在探索不同時間點之間的動態(tài)依賴性。例如,交通事故等突發(fā)事件可能導(dǎo)致交通速度和流量急劇變化。
為了應(yīng)對這種情況,采用了一種改進的注意力機制,與周期性交通模式編碼類似。
其區(qū)別在于,查詢(Q)、鍵(K)和值(V)的輸入被改為上一步的歸一化輸出(M)。此調(diào)整幫助模型專注于學(xué)習(xí)不同時間點之間的動態(tài)依賴關(guān)系,而非僅限于周期性模式。
由此產(chǎn)生的時間表示能夠有效捕捉這些動態(tài)的時空聯(lián)系。
空間依賴建模
由于在交通預(yù)測中,交通網(wǎng)絡(luò)展現(xiàn)出顯著的空間相關(guān)性,捕獲空間依賴性對模型設(shè)計至關(guān)重要。一個區(qū)域的交通狀態(tài)通常會受到其鄰近區(qū)域狀態(tài)的影響。為了有效學(xué)習(xí)這種空間聯(lián)系,采用了圖卷積網(wǎng)絡(luò)(GCNs):
是歸一化的鄰接矩陣,??用于平衡原始信息的保留程度。殘差連接、RMSNorm(RN)和SwiGLU激活函數(shù)被用于后續(xù)的運算。
式中,代表第l層時空編碼網(wǎng)絡(luò)的最終輸出,σ是Swish激活函數(shù),
是可訓(xùn)練權(quán)重。通過疊加多層時空編碼網(wǎng)絡(luò),OpenCity具備捕獲復(fù)雜的時空依賴性的能力,從而使其能夠?qū)W習(xí)交通網(wǎng)絡(luò)內(nèi)的復(fù)雜相互作用。
實驗
零樣本 vs. 全樣本
全面評估了OpenCity在零樣本條件下的性能,測試涉及跨區(qū)域、跨城市和跨類型三個維度,并將其與基線模型在全樣本條件下的性能進行了對比,結(jié)果如表1所示。
(1)優(yōu)越的零樣本預(yù)測性能。
OpenCity在零樣本條件下取得了突出成就,能夠在無需額外微調(diào)的情況下超越多數(shù)基線模型。這突顯了模型在掌握復(fù)雜的大規(guī)模交通數(shù)據(jù)時空模式、提取適用于多種任務(wù)的通用知識的可靠性與效率。
在多個數(shù)據(jù)集的測試結(jié)果下,OpenCity常常位于前兩名,即便不是最佳,其與最優(yōu)性能(MAE)的差距也控制在8%之內(nèi)。
這種卓越的零樣本預(yù)測能力展現(xiàn)了OpenCity在處理多樣化交通數(shù)據(jù)集時的廣泛適應(yīng)性和普遍性,無需大規(guī)模的重新訓(xùn)練。
其核心優(yōu)勢在于能迅速適應(yīng)新環(huán)境,大幅降低了傳統(tǒng)監(jiān)督學(xué)習(xí)方法所需的時間和資源,為實際應(yīng)用帶來了明顯的優(yōu)勢。
(2)卓越的跨任務(wù)泛化能力。
對OpenCity進行了跨四個不同交通數(shù)據(jù)類別的評估,包括交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、出租車需求(CHI-TAXI)和自行車軌跡(NYC-BIKE)?;€分析顯示,雖然多種模型在特定類型數(shù)據(jù)上表現(xiàn)出色,但沒有一個能夠在所有類別中一直維持最優(yōu)結(jié)果。
相比之下,OpenCity在所有測試類別中均呈現(xiàn)出高質(zhì)量的成果,展示了其卓越的穩(wěn)定性和多功能性。此外,為了評估OpenCity框架的通用性,特別測試了其在跨類別零樣本泛化能力上的表現(xiàn)(以NYC-BIKE為例)。
結(jié)果表明,OpenCity在多個評價指標(biāo)上均展現(xiàn)了出色的成績,進一步驗證了其對多樣數(shù)據(jù)類型的適應(yīng)性和普適性。
(3)優(yōu)越的長期預(yù)測性能。
OpenCity架構(gòu)在長期交通預(yù)測任務(wù)中的表現(xiàn)優(yōu)于基線方法,這是其顯著的優(yōu)勢之一。許多現(xiàn)有模型在預(yù)測時間范圍延長時常常難以維持準(zhǔn)確性,原因在于這些模型可能過度依賴歷史數(shù)據(jù),未能有效捕捉交通狀況的動態(tài)變化和演進。
相反,OpenCity能夠從廣泛的交通數(shù)據(jù)源中學(xué)習(xí)到關(guān)鍵的時空特征,使其能夠提供穩(wěn)定而可靠的預(yù)測,即便在交通模式隨時間發(fā)生變化的情況下也是如此。
表1 零樣本 vs. 全樣本性能
有監(jiān)督預(yù)測性能
為了進一步驗證OpenCity的性能,進行了監(jiān)督學(xué)習(xí)評估。在這一評估中OpenCity采用一體化配置,在單個數(shù)據(jù)集上與基線模型進行了全面的端到端訓(xùn)練和測試比較。
表2中的結(jié)果顯示,OpenCity在監(jiān)督學(xué)習(xí)環(huán)境中展示了出色的性能,并在大多數(shù)評估指標(biāo)上保持了領(lǐng)先地位。此外,觀察到大多數(shù)基線模型在CAD-X數(shù)據(jù)集上的表現(xiàn)欠佳,這可能是由于它們傾向于過度擬合歷史的時空模式,難以適應(yīng)長期依賴的交通模型。
相反,OpenCity架構(gòu)通過有效地從預(yù)訓(xùn)練階段提取通用的周期性和動態(tài)時空特征,成功克服了由時間和地點的分布偏移引起的預(yù)測性能降低問題。
表2 有監(jiān)督任務(wù)評估
模型快速適應(yīng)能力探索
本節(jié)中探討了OpenCity在下游任務(wù)中的快速適應(yīng)能力。對預(yù)訓(xùn)練階段未出現(xiàn)的交通數(shù)據(jù)類型實施了“高效微調(diào)”策略。具體做法是僅更新模型的預(yù)測頭部(最后一個線性層),并限制訓(xùn)練周期為至多三個。
如表3所示,雖然OpenCity在一些指標(biāo)上的零樣本性能最初不如基線模型的全樣本性能,這可能歸因于交通模式和數(shù)據(jù)采樣的差異。然而,通過高效微調(diào),OpenCity的性能顯著提升,超越了所有比較模型。
特別值得注意的是,OpenCity的訓(xùn)練時間僅需基線模型的2%至32%。這種快速的適應(yīng)性突顯了OpenCity作為基本交通預(yù)測模型的潛力,展示了其對新的時空數(shù)據(jù)類型的迅速適應(yīng)能力。
表3 OpenCity快速適應(yīng)能力評估
消融實驗
(1)動態(tài)交通建模的重要性。
-DTP。除動態(tài)交通建模模塊后,性能有所下降。這說明該模塊對于有效分析最新交通模式并適應(yīng)突發(fā)的交通狀況以優(yōu)化預(yù)測至關(guān)重要。
(2)周期性交通轉(zhuǎn)移建模的作用。
-PTTM。在模型中取消了周期性編碼,選擇直接將時間和空間上下文融入時空嵌入。性能的下降表明,通過映射歷史與未來時間對之間的交通流,OpenCity 能夠有效捕獲影響時空模式演變的關(guān)鍵規(guī)律。
(3)空間依賴性建模的作用。
在-SDM變體中,移除了空間編碼模塊。分析顯示,通過學(xué)習(xí)空間關(guān)系,模型的時空預(yù)測能力得到了顯著提升。模型通過整合依賴于空間區(qū)域的交通信息,有效地識別了動態(tài)交通流模式,為零樣本交通預(yù)測提供了關(guān)鍵支持。
(4)時空上下文編碼的作用。
在移除了時空上下文信息編碼后(-STC),性能顯著下降。時間上下文信息幫助模型識別并學(xué)習(xí)特定時段的常見交通模式,同時區(qū)域嵌入則提供了區(qū)域特定的關(guān)鍵特征。這些因素共同為理解城市間的動態(tài)時空模式提供了深刻的洞察。
圖3 OpenCity消融實驗
模型可擴展性研究
如圖4所示,本節(jié)探索了OpenCity在數(shù)據(jù)量和參數(shù)規(guī)模這兩個維度的可擴展性。
對于參數(shù)規(guī)模,考察了三個不同的版本:OpenCity-mini(2M參數(shù))、OpenCity-base(5M參數(shù))以及OpenCity-plus(26M參數(shù))。在數(shù)據(jù)規(guī)模的可擴展性方面,對于OpenCity-plus模型,分別使用了10%、50%和100%的預(yù)訓(xùn)練數(shù)據(jù),以研究增加數(shù)據(jù)量所帶來的優(yōu)勢。
為了便于比較,使用相對預(yù)測誤差作為縱軸的度量標(biāo)準(zhǔn)。結(jié)果顯示,隨著參數(shù)數(shù)量和數(shù)據(jù)量的增加,OpenCity的零樣本泛化能力也逐漸提升。
這表明OpenCity能夠有效地從大規(guī)模數(shù)據(jù)集中提取有用信息,并通過增加參數(shù)規(guī)模來提高其學(xué)習(xí)能力。這種可擴展性的展示支持了OpenCity成為廣泛應(yīng)用于交通領(lǐng)域的基礎(chǔ)模型的潛力。
圖4 模型可擴展性研究
與大規(guī)模時空預(yù)測模型的比較
在本節(jié)中,對OpenCity與其他先進的大型時空預(yù)訓(xùn)練模型進行了比較,包括以其出色的零樣本泛化能力而著稱的UniST和UrbanGPT。評估使用的是三個模型在預(yù)訓(xùn)練階段均未接觸過的CHI-TAXI數(shù)據(jù)集。
如表4所示,OpenCity在這些先進的大型時空模型中顯示出了顯著的性能優(yōu)勢。此外,與UrbanGPT相比,OpenCity和UniST表現(xiàn)出了明顯的效率提升。這可能是因為UrbanGPT需要依賴于大型語言模型(LLM)以問答格式進行預(yù)測,從而限制了其處理批量數(shù)據(jù)的效率。
OpenCity在性能和效率方面的卓越表現(xiàn)突顯了其在交通領(lǐng)域作為強大大規(guī)模模型的潛力。
表4 與大規(guī)模時空預(yù)測模型的比較實驗。
總結(jié)與展望
該論文提出了OpenCity,一個針對交通預(yù)測設(shè)計的可擴展時空基礎(chǔ)模型,它在多種交通預(yù)測場景中展示了卓越的零樣本預(yù)測能力。
該模型核心采用了Transformer編碼器架構(gòu),用以建模動態(tài)的時空依賴性,并通過在大型交通數(shù)據(jù)集上預(yù)訓(xùn)練,使得OpenCity在多種下游任務(wù)中均表現(xiàn)出色,其零樣本預(yù)測性能可與全樣本設(shè)置下的先進模型媲美。
OpenCity框架能夠有效處理不同分布的數(shù)據(jù),并展現(xiàn)出高效的計算性能。鑒于其所顯示的良好擴展性,OpenCity為開發(fā)一個強大且適用于多種城市環(huán)境和交通網(wǎng)絡(luò)的通用交通預(yù)測解決方案奠定了基礎(chǔ)。