清華推出首個通用城市時(shí)空預(yù)測模型UniST,零樣本場景開箱即用|KDD2024
城市時(shí)空的預(yù)測,迎來GPT時(shí)刻。
清華大學(xué)電子系城市科學(xué)與計(jì)算研究中心推出了第一個無需自然語言的純時(shí)空通用模型——UniST,首次展示了純時(shí)空模型本身的通用性和可擴(kuò)展性,研究成果已被KDD2024接收。
研究團(tuán)隊(duì)利用超過20個時(shí)空數(shù)據(jù)集、1.3億+個時(shí)空樣本點(diǎn),構(gòu)建了涵蓋多個城市、不同領(lǐng)域、空間劃分和時(shí)間分辨率等維度的城市時(shí)空數(shù)據(jù),構(gòu)建并訓(xùn)練了「one-for-all」的時(shí)空通用模型——UniST。
該模型是目前覆蓋范圍最廣、統(tǒng)一性最強(qiáng)的城市時(shí)空通用模型。值得一提的是,UniST相較于當(dāng)前的大語言模型具有更輕量級的優(yōu)勢,僅用20M的參數(shù)規(guī)模就展現(xiàn)出很強(qiáng)的零樣本學(xué)習(xí)能力。
△圖1. UniST實(shí)現(xiàn)時(shí)空通用建模(one-for-all)
UniST通過整合多城市、多領(lǐng)域豐富的時(shí)空數(shù)據(jù),利用基于Transformer的架構(gòu)、獨(dú)特的時(shí)空掩碼策略(mask)和知識引導(dǎo)的時(shí)空提示(prompt),實(shí)現(xiàn)了對城市多樣化時(shí)空動態(tài)性的統(tǒng)一建模和精準(zhǔn)預(yù)測。在實(shí)驗(yàn)中,UniST展示了其在交通管理、資源優(yōu)化等多個城市應(yīng)用場景中的卓越表現(xiàn),尤其是在跨場景零樣本預(yù)測(zero-shot)中,其性能超過了少樣本(few-shot)基線方法,展現(xiàn)出強(qiáng)大的通用性和泛化能力。
該成果的論文、代碼和數(shù)據(jù)均已公開,供研究和應(yīng)用者使用。
純時(shí)空模型的逆襲
時(shí)空預(yù)測在城市中無處不在,它不僅關(guān)注交通和人群的流動,還涉及資源分配、節(jié)能減排,公共衛(wèi)生等多個場景。然而時(shí)空預(yù)測模型往往需要處理復(fù)雜且動態(tài)的時(shí)空關(guān)聯(lián),因此建模難度較大。傳統(tǒng)的AI方法需要大量的訓(xùn)練數(shù)據(jù)和領(lǐng)域知識,且一般只能針對特定的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,不同時(shí)空場景就需要訓(xùn)練多個模型,這在城市數(shù)據(jù)不足的情況下顯得尤為困難。
與此同時(shí),隨著大語言模型的爆發(fā),研究者們開始嘗試使用「文本」來完成時(shí)空相關(guān)的任務(wù),將文本描述與時(shí)空多模態(tài)數(shù)據(jù)結(jié)合。然而,在面對復(fù)雜的時(shí)空場景時(shí),這種方法容易忽略大量的時(shí)空耦合和動態(tài)信息。事實(shí)上,時(shí)空數(shù)據(jù)的產(chǎn)生本質(zhì)上并不依賴語言。因此,清華大學(xué)的研究團(tuán)隊(duì)選擇了一條不同于大語言模型的方向:僅依靠時(shí)空數(shù)據(jù),我們能走多遠(yuǎn)?時(shí)空通用模型是否能像自然語言大模型一樣存在?
?
具體來說,研究團(tuán)隊(duì)致力于訓(xùn)練一個純時(shí)空通用模型,該模型能夠模仿大語言模型(LLM)的兩個關(guān)鍵特性:
- 對豐富的時(shí)空數(shù)據(jù)具有強(qiáng)大的拓展能力;
- 像大語言模型一樣,展現(xiàn)出強(qiáng)大的通用性和泛化能力。
值得一提的是,純時(shí)空模型背后的直覺是:在人類干預(yù)下,城市運(yùn)轉(zhuǎn)中產(chǎn)生的各種時(shí)空數(shù)據(jù)存在通用規(guī)律,可以通過類似于GPT的方式進(jìn)行訓(xùn)練。
通用時(shí)空建模的挑戰(zhàn)
挑戰(zhàn)1:時(shí)空數(shù)據(jù)格式不統(tǒng)一
在自然語言處理中,數(shù)據(jù)通常是統(tǒng)一的1D序列格式;在計(jì)算機(jī)視覺中,無論是圖片還是視頻,也都遵循較為標(biāo)準(zhǔn)的格式。然而,時(shí)空數(shù)據(jù)在不同時(shí)空場景下,由于數(shù)據(jù)收集者和收集方式的不同,其數(shù)據(jù)形狀以及時(shí)空分辨率存在明顯的差異。這種多樣性使得對時(shí)空數(shù)據(jù)的統(tǒng)一處理和分析變得異常困難。
挑戰(zhàn)2:不同時(shí)空場景數(shù)據(jù)分布差異大
?
不同城市、地理空間、時(shí)間段的時(shí)空數(shù)據(jù)往往展現(xiàn)出顯著的分布差異。此外,不同領(lǐng)域的數(shù)據(jù),例如空氣污染數(shù)據(jù)、交通數(shù)據(jù)、人流數(shù)據(jù)和網(wǎng)絡(luò)基站數(shù)據(jù)等,也存在顯著的分布差異。這些差異增加了模型的復(fù)雜性,模型需要具備強(qiáng)大的泛化能力以適應(yīng)各種數(shù)據(jù)分布。
如何構(gòu)建純時(shí)空通用模型
盡管不直接使用大語言模型, 但LLM的成功經(jīng)驗(yàn)不可忽視。研究團(tuán)隊(duì)從LLM的思想出發(fā), 實(shí)現(xiàn)了以下幾個關(guān)鍵特性:
- 具有在多樣數(shù)據(jù)下的拓展能力;
- 自監(jiān)督預(yù)訓(xùn)練充分捕捉復(fù)雜時(shí)空關(guān)聯(lián);
- 通過提示(prompt)靈活進(jìn)行泛化。
與已有時(shí)空模型不同的是,UniST在以下幾方面實(shí)現(xiàn)了突破:
- 靈活適應(yīng)多樣化的時(shí)空數(shù)據(jù)特征:UniST能夠處理不同城市、不同領(lǐng)域的多樣化時(shí)空數(shù)據(jù),實(shí)現(xiàn)真正統(tǒng)一和通用的模型。無論是交通數(shù)據(jù)、人群流動數(shù)據(jù)還是城市資源分布數(shù)據(jù),UniST都能靈活應(yīng)對,展現(xiàn)出強(qiáng)大的可拓展性。
- 高效的生成式預(yù)訓(xùn)練:通過巧妙設(shè)計(jì)的掩碼策略,UniST能夠捕捉復(fù)雜的時(shí)空關(guān)系,實(shí)現(xiàn)全面多維度的時(shí)空建模。
- 時(shí)空知識引導(dǎo)的提示:利用知識引導(dǎo)的時(shí)空提示,UniST能夠?qū)Σ煌瑘鼍暗膬?nèi)在和共享知識進(jìn)行對齊和利用,提升預(yù)測性能。通過這種提示機(jī)制,UniST可以在數(shù)據(jù)稀缺或全新的應(yīng)用場景中依然保持高效的預(yù)測能力。
△圖2. UniST整體架構(gòu):時(shí)空預(yù)訓(xùn)練和知識引導(dǎo)的提示微調(diào)
時(shí)空數(shù)據(jù)的序列建模
為了有效處理不同來源、不同特征的時(shí)空數(shù)據(jù),UniST提出了一種名為「時(shí)空序列」的建模方法。具體來說,時(shí)空數(shù)據(jù)首先被表示為一個四維張量:T×C×H×W,其中 T 表示時(shí)間段數(shù)量, C 表示變量數(shù)量, H 和 W 分別表示空間劃分中的緯度和經(jīng)度網(wǎng)格數(shù)。
為了統(tǒng)一處理不同形狀的時(shí)空數(shù)據(jù),UniST引入了時(shí)空編碼器,將這些四維張量轉(zhuǎn)換為小的三維向量,然后按照位置展開成序列。將豐富的時(shí)空數(shù)據(jù)表征為「時(shí)空序列」的通用格式后,就可以利用Transformer強(qiáng)大的序列建模能力,進(jìn)行模型的訓(xùn)練,全面捕捉復(fù)雜的時(shí)空關(guān)系。
得到「時(shí)空序列」之后,UniST通過生成式預(yù)訓(xùn)練進(jìn)一步提升其建模能力。預(yù)訓(xùn)練過程中,研究團(tuán)隊(duì)采用了多種掩碼策略,幫助模型更好地理解和捕捉時(shí)空關(guān)系。具體來說,UniST引入了以下幾種掩碼策略:
- 隨機(jī)掩碼(Random Masking):類似于MAE中的隨機(jī)掩碼策略,通過隨機(jī)遮蔽時(shí)空數(shù)據(jù)塊來捕捉細(xì)粒度的時(shí)空關(guān)系。
- 管狀掩碼(Tube Masking):模擬某些空間單元在所有時(shí)間段內(nèi)的數(shù)據(jù)缺失情況,提升模型的空間外推能力。
- 塊狀掩碼(Block Masking):一種更具挑戰(zhàn)性的掩碼方式,通過遮蔽整個空間單元塊在所有時(shí)間段內(nèi)的數(shù)據(jù),增強(qiáng)模型在有限上下文信息下的空間遷移能力。?
- 時(shí)間掩碼(Temporal Masking):遮蔽未來的數(shù)據(jù),僅依賴歷史信息進(jìn)行重建,旨在
提升模型捕捉從過去到未來時(shí)間依賴關(guān)系的能力。
通過這些掩碼策略,UniST在預(yù)訓(xùn)練階段系統(tǒng)地增強(qiáng)了其從多角度捕捉時(shí)空關(guān)系的能力,不僅提高了模型的泛化性能,還顯著減少了對大量標(biāo)記數(shù)據(jù)的依賴。
知識引導(dǎo)的時(shí)空提示
在UniST中,提示機(jī)制(prompt)是進(jìn)一步提升模型泛化能力的關(guān)鍵。為了在不同的時(shí)空場景中保持高效預(yù)測,研究團(tuán)隊(duì)設(shè)計(jì)了基于時(shí)空知識的提示網(wǎng)絡(luò)(prompt network)。該提示網(wǎng)絡(luò)利用已知的時(shí)空領(lǐng)域知識,生成有助于模型理解和預(yù)測的提示信息。
具體來說,提示網(wǎng)絡(luò)基于以下四個方面的時(shí)空知識進(jìn)行提示生成:
- 空間臨近性:臨近的空間單元可能相互影響;
- 空間層次結(jié)構(gòu):城市結(jié)構(gòu)的層次組織會影響時(shí)空動態(tài);
- 時(shí)間臨近性:近期的動態(tài)會影響未來結(jié)果;
- 時(shí)間周期性:每天或每周的相似模式會影響未來周期性結(jié)果。
如圖3所示,提示網(wǎng)絡(luò)從記憶池中提取有用的提示,這些記憶池存儲了優(yōu)化后的時(shí)空領(lǐng)域知識。提示的生成過程利用時(shí)空特征表示作為查詢,提取相應(yīng)的記憶向量,這些提示向量再集成到Transformer架構(gòu)的輸入空間,提升模型的預(yù)測能力。
△圖3. 時(shí)空提示網(wǎng)絡(luò)
實(shí)驗(yàn)結(jié)果
在15個城市和6個領(lǐng)域的廣泛實(shí)驗(yàn)中,UniST展示了其卓越的通用性和強(qiáng)大的預(yù)測能力。特別是在少樣本和零樣本場景下,UniST表現(xiàn)出色,大幅提升了時(shí)空預(yù)測的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,UniST在多個任務(wù)上的表現(xiàn)均超越了當(dāng)前最先進(jìn)的基線模型,證明了其在不同城市、不同數(shù)據(jù)集上的強(qiáng)大適應(yīng)能力。
- 少樣本學(xué)習(xí):在訓(xùn)練數(shù)據(jù)有限的情況下,UniST依然能夠提供高精度的預(yù)測。
- 零樣本學(xué)習(xí):在模型從未見過的時(shí)空場景下,UniST依然能實(shí)現(xiàn)出色的預(yù)測性能,甚至超過了大多數(shù)監(jiān)督學(xué)習(xí)方法。
- 廣泛適用性:在交通預(yù)測、人群流動預(yù)測、資源分配等多個任務(wù)中,UniST均展示了其強(qiáng)大的預(yù)測能力和適用性。
△圖4. 多個數(shù)據(jù)集與基線模型預(yù)測性能對比
△圖5. (a)少樣本場景(b)零樣本場景性能
研究團(tuán)隊(duì)深入分析了提示(prompt)機(jī)制的作用。在時(shí)間記憶池中,針對每個向量的記憶模式進(jìn)行深入研究,根據(jù)該向量被數(shù)據(jù)集索引的權(quán)重高低,聚合數(shù)據(jù)集樣本值在該向量上的結(jié)果。圖 6(a) 和圖 6(b) 展示了在兩個數(shù)據(jù)集(Crowd 和 TrafficSH)上的結(jié)果??梢钥吹剑崾緳C(jī)制中展現(xiàn)的記憶模式在不同的城市場景中表現(xiàn)出顯著的一致性。這不僅證實(shí)了每個記憶向量都被很好地優(yōu)化以記憶獨(dú)特的時(shí)空模式,還證明了空間和時(shí)間記憶池在不同場景中的穩(wěn)健性。
△圖6. 記憶向量模式在不同數(shù)據(jù)集對比(一致性高)
進(jìn)一步,研究團(tuán)隊(duì)分析了兩個不同場景對記憶向量的利用情況(獲得的時(shí)空提示)。具體來說,通過計(jì)算在不同數(shù)據(jù)集上下文中每個向量的平均注意力權(quán)重(圖 7(c) 和圖 7(d) )可以看出,不同數(shù)據(jù)集的注意力權(quán)重分布顯示出明顯的不同。這種注意力權(quán)重分布的獨(dú)特性表明,模型能夠根據(jù)輸入數(shù)據(jù)的特征動態(tài)調(diào)整其關(guān)注的記憶模式,顯著增強(qiáng)了 UniST 模型在不同數(shù)據(jù)集上的適配性和泛化性。
這些實(shí)驗(yàn)結(jié)果表明,UniST在提示機(jī)制的幫助下,能夠在不同的時(shí)空場景中有效地捕捉和利用重要的時(shí)空關(guān)系,從而在應(yīng)對復(fù)雜多變的時(shí)空數(shù)據(jù)時(shí)UniST都能夠有出色的表現(xiàn),展示了其強(qiáng)大的適應(yīng)能力和廣泛的應(yīng)用潛力。
△圖7. 不同數(shù)據(jù)集時(shí)空提示結(jié)果對比(差異性大)
結(jié)語
UniST的發(fā)布不僅代表了城市時(shí)空領(lǐng)域的重要突破,也展示了通用大模型在復(fù)雜城市計(jì)算中的廣泛應(yīng)用前景。通過整合多城市、多領(lǐng)域的時(shí)空數(shù)據(jù),UniST表現(xiàn)出其在少樣本和零樣本學(xué)習(xí)場景中的卓越性能,以及在交通管理、人群流動預(yù)測和資源分配等多個實(shí)際應(yīng)用中的廣泛適用性。隨著智能城市建設(shè)的推進(jìn),UniST有望在全球范圍內(nèi)推動智慧城市的發(fā)展,為城市管理者提供更加精準(zhǔn)的數(shù)據(jù)支持和決策依據(jù)。
研究團(tuán)隊(duì)將繼續(xù)探索UniST的潛力,期待未來的研究能夠進(jìn)一步提升模型的性能和適應(yīng)性,推動城市時(shí)空進(jìn)入一個更加智能和高效的新階段。
論文地址:https://arxiv.org/abs/2402.11838
代碼和數(shù)據(jù)開源地址:https://github.com/tsinghua-fib-lab/UniST
本文轉(zhuǎn)自 量子位 ,作者:量子位
