AI大模型控制紅綠燈,港科大(廣州)智慧交通新成果已開源
大模型“上路”,干起了交通信號(hào)控制(TSC)的活~
模型名為LightGPT,以排隊(duì)及不同區(qū)段快要接近信號(hào)燈的車輛對(duì)路口交通狀況分析,進(jìn)而確定最好的信號(hào)燈配置。
該模型由香港科技大學(xué)(廣州)的研究團(tuán)隊(duì)提出,其背后關(guān)鍵是一個(gè)名為LLMLight的框架。
該框架向智能體提供詳細(xì)的實(shí)時(shí)交通狀況,并結(jié)合先驗(yàn)知識(shí)構(gòu)成提示,利用大模型卓越的泛化能力,采用符合人類直覺的推理和決策過程來實(shí)現(xiàn)有效的交通控制。
在九個(gè)交通流數(shù)據(jù)集上的實(shí)驗(yàn)證明了LLMLight框架的有效性、泛化能力和可解釋性。
具體來說,在真實(shí)數(shù)據(jù)集上,LLMLight在所有基準(zhǔn)測(cè)試中始終達(dá)到了SOTA或與經(jīng)典強(qiáng)化學(xué)習(xí)等方法同等的性能水平,并且擁有比后者更為強(qiáng)大的泛化性。
同時(shí),LLMLight還能在決策時(shí)提供背后的分析邏輯,這一可解釋性實(shí)現(xiàn)了信號(hào)燈控制的透明化。
TSC垂類大模型LightGPT在此任務(wù)上的決策能力顯著優(yōu)于GPT-4。
即便在濟(jì)南、杭州、紐約等復(fù)雜路網(wǎng)下,也展示出突出性能。
目前,LLMLight框架、交通信號(hào)燈控制垂類大模型LightGPT已開源。
LLM應(yīng)用于TSC有何挑戰(zhàn)?
交通信號(hào)控制(TSC)是城市交通管理的重要組成部分,旨在優(yōu)化道路網(wǎng)絡(luò)效率并減少擁堵。
現(xiàn)有的TSC研究主要分為兩類:基于交通工程和強(qiáng)化學(xué)習(xí)的方法。
其中,交通工程方法主要側(cè)重于制定有效的啟發(fā)式算法,根據(jù)車道級(jí)交通狀況屬性,動(dòng)態(tài)調(diào)整交通信號(hào)燈配置。然而,這些方法的設(shè)計(jì)嚴(yán)重依賴人力及專業(yè)領(lǐng)域知識(shí)。
之后,多數(shù)研究便基于深度強(qiáng)化學(xué)習(xí)技術(shù)來應(yīng)對(duì)這一任務(wù),并在各種交通場(chǎng)景中都表現(xiàn)出了卓越的性能。
然而,基于強(qiáng)化學(xué)習(xí)的方法也存在明顯缺點(diǎn)。首先,由于他們的訓(xùn)練數(shù)據(jù)僅涵蓋有限的交通情況,致使其表現(xiàn)出局限的泛化能力,特別是在轉(zhuǎn)移到更大規(guī)模的交通網(wǎng)絡(luò)或在不常見的路況下(例如,極端高流量的情況)。
此外,由于深度神經(jīng)網(wǎng)絡(luò)(DNN)的黑盒特性,基于深度強(qiáng)化學(xué)習(xí)的方法缺乏可解釋性,這使得研究人員很難理解其在某交通狀況下控制行為的背后邏輯。
而當(dāng)今,大語言模型憑借其卓越的零樣本學(xué)習(xí)和泛化能力,它以模仿近似人類的推理過程來解決復(fù)雜任務(wù),徹底改變了多個(gè)領(lǐng)域。
例如在交通控制任務(wù)上,PromptGAT使用LLM生成人類知識(shí),以此來幫助DNN模型理解TSC任務(wù)中的長(zhǎng)尾場(chǎng)景(例如極端天氣),旨在彌合現(xiàn)實(shí)世界與模擬之間的差距。
不過,雖然現(xiàn)有的研究已經(jīng)開始探索利用LLM作為輔助工具來增強(qiáng)決策,但直接利用LLM作為TSC智能體進(jìn)行類人決策的潛力還尚未探尋。
具體而言,其有兩個(gè)重要挑戰(zhàn)。
第一個(gè)挑戰(zhàn)在于如何使LLM能夠理解實(shí)時(shí)交通動(dòng)態(tài)并與交通環(huán)境做有效交互。
LLM通常在大規(guī)模自然語言語料庫上進(jìn)行預(yù)訓(xùn)練,但很少包含非文本的流量數(shù)據(jù)(例如傳感器讀數(shù)和GPS軌跡)。盡管它們具有跨多種任務(wù)和領(lǐng)域的泛化能力,但實(shí)時(shí)交通數(shù)據(jù)和自然語言之間存在固有差距。
如何為信號(hào)燈控制任務(wù)選擇和開發(fā)專有垂類LLM,則是另一個(gè)重大挑戰(zhàn)。
首先,通才大模型往往缺乏特定領(lǐng)域的知識(shí),容易出現(xiàn)專業(yè)領(lǐng)域的幻覺問題。盡管GPT-4等最先進(jìn)的LLM表現(xiàn)出了優(yōu)異的泛化能力,但它們的閉源性質(zhì)和高昂成本并不利于投入到實(shí)時(shí)TSC任務(wù)及其后續(xù)優(yōu)化中。
因此,訓(xùn)練專門為TSC任務(wù)量身定制的LLM成為了當(dāng)下更優(yōu)的選擇。
如何將LLM應(yīng)用于TSC?
為了應(yīng)對(duì)上述挑戰(zhàn),研究人員提出了LLMLight框架,其旨在整合大語言模型作為智能體,實(shí)現(xiàn)交通信號(hào)燈控制。
首先該研究將TSC視為部分可觀察的馬爾可夫博弈(Partially Observable Markov Game),其中每個(gè)LLM智能體管理一個(gè)十字路口的交通燈。
在每個(gè)信號(hào)切換時(shí)間步上,智能體都會(huì)收集目標(biāo)路口的交通狀況,并將其轉(zhuǎn)換為人類可讀的文本作為實(shí)時(shí)觀察。
此外,該研究還結(jié)合了信息量豐富的任務(wù)描述及一條與控制策略有關(guān)的常識(shí)知識(shí),以幫助LLM理解交通管理任務(wù)。交通路口的實(shí)時(shí)狀態(tài)、任務(wù)描述與控制動(dòng)作空間結(jié)合,形成了指導(dǎo)智能體決策的知識(shí)提示。
最后,LLM控制智能體利用思想鏈 (CoT) 推理來確定下一個(gè)時(shí)間片的最佳交通信號(hào)燈配置。
并且該研究還構(gòu)建了一個(gè)交通信號(hào)燈控制垂類大模型LightGPT來增強(qiáng)LLMLight框架。一方面,提出了模仿學(xué)習(xí)微調(diào)(Imitation Fine-tuning),讓學(xué)生LLM學(xué)習(xí)GPT-4產(chǎn)生的高質(zhì)量決策和推理軌跡。
另一方面,引入了一個(gè)由評(píng)論家模型指導(dǎo)的策略優(yōu)化(Critic-gudied Policy Refinement)過程,使其評(píng)估和改進(jìn)LLM智能體的控制。
優(yōu)化后的LightGPT可以產(chǎn)生比GPT-4更具成本效益且更有效的控制策略,并在不同流量場(chǎng)景中展現(xiàn)出卓越的泛化能力。
一起來看具體實(shí)現(xiàn)方法。
LLMLight框架的構(gòu)建
LLMLight的工作流包括:
- 交通狀態(tài)觀測(cè)特征構(gòu)建:收集交通路口的交通狀態(tài)觀測(cè);
- 常識(shí)知識(shí)增強(qiáng)的智能體提示構(gòu)建:組成一則整合了常識(shí)知識(shí)的提示,用于指導(dǎo)LLM推理出下一時(shí)間片最優(yōu)的交通信號(hào)燈配置;
- 智能體的分析推理及決策:LLM使用構(gòu)建的提示進(jìn)行分析推理決策過程,隨后做出決策。其流程如下圖所示:
研究人員將交通信號(hào)控制定義為一個(gè)部分可觀察的馬爾可夫博弈?;诮徊婵趯?shí)時(shí)交通狀況的觀察、交通場(chǎng)景描述
、任務(wù)描述
、常識(shí)知識(shí)
以及信號(hào)燈控制動(dòng)作空間
,以LLM智能體的策略控制目標(biāo)交通路口的信號(hào)燈
。
LLM的輸出為分析推理軌跡與調(diào)節(jié)路口信號(hào)燈的控制動(dòng)作
。其目標(biāo)為優(yōu)化長(zhǎng)期內(nèi)交通路口的通行效率。其可形式地表示為:
具體來說,對(duì)于交通狀態(tài)觀測(cè)特征構(gòu)建,研究人員收集了兩種在現(xiàn)實(shí)場(chǎng)景中可以簡(jiǎn)單獲取到的觀測(cè)特征:不同車道上排隊(duì)車的數(shù)量;同車道上,還未到達(dá)路口車的數(shù)量。
常識(shí)知識(shí)增強(qiáng)的智能體提示構(gòu)建方面,除觀測(cè)特征外,研究人員還向LLM提供了在處理交通信號(hào)控制任務(wù)中其他必不可少的信息,包括交通場(chǎng)景描述、任務(wù)描述
和控制動(dòng)作空間
。
這使得LLM能夠全面了解任務(wù),從而做出合理的控制決策。
此外,該研究還整合了常識(shí)知識(shí),以緩解通用型LLM在交通控制領(lǐng)域知識(shí)上的局限性。
這些知識(shí)規(guī)定了智能體需要優(yōu)先考慮排隊(duì)長(zhǎng)度較長(zhǎng)的車道,而減弱對(duì)距離路口較遠(yuǎn)車輛的注意力。形式化地,該研究將智能體提示表示為:
提示符模板的簡(jiǎn)要示意如下圖所示:
在智能體的分析推理及決策方面,該研究利用上述提示LLM進(jìn)行零樣本(Zero-Shot)推理。
其決策過程包含兩個(gè)關(guān)鍵步驟:分析推理及決策。
首先,LLM會(huì)對(duì)所給任務(wù)及常識(shí)知識(shí)進(jìn)行理解,并評(píng)估各車道的當(dāng)前交通狀況。
隨后,LLM選擇合適的信號(hào)燈配置,以允許擁堵最嚴(yán)重的車道通行,從而優(yōu)化交通流量,確保車輛的順暢通過。
通過這種方式,LLMLight不僅可以制定有效的控制策略,還可以為每個(gè)決策提供其背后推理邏輯。這會(huì)極大有助于建立更具解釋性和透明性的交通控制系統(tǒng)。
形式化地,研究人員將推理和執(zhí)行行動(dòng)表示為,LLM主干的決策過程示例如下圖所示:
LightGPT模型訓(xùn)練
此外,該研究還提出了一種訓(xùn)練方法,以專門優(yōu)化用于交通信號(hào)燈控制的LLM——LightGPT。
它主要包括三個(gè)階段:
- 推理軌跡的收集和篩選:首先,該研究收集GPT-4的思維鏈推理軌跡進(jìn)行模仿學(xué)習(xí)微調(diào),之后篩選出與長(zhǎng)期優(yōu)化目標(biāo)最相符的軌跡以確保數(shù)據(jù)質(zhì)量;
- 模仿學(xué)習(xí)微調(diào):利用GPT-4的決策及其推理軌跡對(duì)學(xué)生LLM進(jìn)行訓(xùn)練;
- 評(píng)論家模型指導(dǎo)的策略優(yōu)化:依據(jù)評(píng)論家模型的反饋進(jìn)行微調(diào),進(jìn)一步改善LLM的決策過程。
下圖展示了其訓(xùn)練流程:
推理軌跡的收集和篩選
利用上述方法構(gòu)建的提示,該研究首先讓GPT-4與模擬交通環(huán)境進(jìn)行交互,并收集其推理軌跡。
為了確保所收集數(shù)據(jù)的質(zhì)量,研究人員篩選出與交通信號(hào)燈控制的長(zhǎng)期目標(biāo)最相符軌跡(如最小化未來的排隊(duì)長(zhǎng)度)。這種篩選操作通過與一個(gè)預(yù)訓(xùn)練的動(dòng)作-價(jià)值網(wǎng)絡(luò)(Action-Value Network)的對(duì)齊來實(shí)現(xiàn)。
該研究通過在模擬環(huán)境中優(yōu)化貝爾曼方程(Bellman Equation)來訓(xùn)練此網(wǎng)絡(luò):
其中和
是在信號(hào)燈切換時(shí)間步
時(shí)觀察和控制動(dòng)作,
是獎(jiǎng)勵(lì)折扣因子。
是獎(jiǎng)勵(lì)函數(shù),其提供了在觀察
下執(zhí)行動(dòng)作
的反饋(如隊(duì)列長(zhǎng)度的負(fù)值)。
是動(dòng)作-價(jià)值函數(shù),用于估計(jì)執(zhí)行
后獲得的未來累積獎(jiǎng)勵(lì)。
隨后,訓(xùn)練好的動(dòng)作-價(jià)值函數(shù)被用作評(píng)論家模型來評(píng)估GPT-4的決策。研究人員僅保留選擇可得到最高未來獎(jiǎng)勵(lì)控制動(dòng)作的推理軌跡,形式化地:
其中是模擬持續(xù)時(shí)間,
是智能體提示,
是GPT-4的推理軌跡。
模仿學(xué)習(xí)微調(diào)
這一階段,首先研究人員采用了一種模仿學(xué)習(xí)過程,令學(xué)生LLM基于GPT-4的決策及其推理軌跡進(jìn)行訓(xùn)練。
研究人員將提視為微調(diào)指令,將包含GPT-4選擇的控制動(dòng)作
的推理軌跡
作為期望得到的回答,并以負(fù)對(duì)數(shù)似然(NLL)作為損失函數(shù):
其中為在提示為
的情況下生成字符
的概率。
評(píng)論家模型指導(dǎo)的策略優(yōu)化
為進(jìn)一步提高LLM控制策略的有效性,研究人員提出了一種策略優(yōu)化方法,通過調(diào)整LLM的推理軌跡以得出更合理的控制決策。
類似的,該研究繼續(xù)使用上述預(yù)訓(xùn)練的動(dòng)作-價(jià)值函數(shù)作為評(píng)論家模型,以評(píng)估由LLM選擇的控制動(dòng)作。隨后,利用一種對(duì)齊微調(diào)算法來調(diào)整推理軌跡,最終引導(dǎo)LLM采取產(chǎn)生更高未來獎(jiǎng)勵(lì)的決策。
具體而言,有個(gè)在提示
下由策略
采樣的推理軌跡
評(píng)論家模型給出每個(gè)軌跡推導(dǎo)出的控制動(dòng)作的分?jǐn)?shù)
接著,的字符平均對(duì)數(shù)似然值表示由
生成
的概率:
該研究采用帶有邊界約束項(xiàng)(RBC)的排名反饋損失進(jìn)行優(yōu)化,以指導(dǎo)LLM得出產(chǎn)生得分更高控制動(dòng)作的推理軌跡:
其中
是比評(píng)分更高的且最低的推理軌跡的概率,β是超參數(shù)。
是用于提升產(chǎn)生得分更高控制動(dòng)作的軌跡的對(duì)齊項(xiàng)。
是用于防止性能下降的約束項(xiàng)。
該方法效果如何?
實(shí)驗(yàn)階段,該研究使用了五個(gè)真實(shí)世界流量數(shù)據(jù)集,其中包括了來自濟(jì)南和杭州的數(shù)據(jù)。
此外,還利用了兩個(gè)在紐約更大的路網(wǎng)下采集的數(shù)據(jù),以測(cè)試不同方法的在大型路網(wǎng)下的可擴(kuò)展性。
為了測(cè)試在長(zhǎng)尾情況下的泛化性,研究人員還合成了兩個(gè)額外的數(shù)據(jù)集,模擬了極端擁堵的路況。
該研究使用了平均旅行時(shí)間(ATT),路口平均隊(duì)列長(zhǎng)度(AQL),以及路口平均等待時(shí)間(AWT)作為評(píng)價(jià)指標(biāo)。
以下是具體的實(shí)驗(yàn)結(jié)果。
總體性能比較
實(shí)驗(yàn)結(jié)果表明,配備了LightGPT的LLMLight在所有基準(zhǔn)測(cè)試中始終達(dá)到了SOTA或與經(jīng)典方法同等的性能水平。
盡管Advanced-CoLight(當(dāng)前最先進(jìn)的強(qiáng)化學(xué)習(xí)方法)在杭州數(shù)據(jù)集上表現(xiàn)優(yōu)于LLMLight(LightGPT),但它的決策需要依賴與鄰近路口之間的通信。
值得一提的是,LLMLight(LightGPT)僅利用當(dāng)前路口的觀測(cè)特征就展現(xiàn)出強(qiáng)有競(jìng)爭(zhēng)的結(jié)果,表明了其決策顯著的有效性。
對(duì)于由通用型大模型驅(qū)動(dòng)的LLMLight,研究人員觀察到GPT-4表現(xiàn)最為出色,并展示出與最先進(jìn)強(qiáng)化學(xué)習(xí)方法相當(dāng)?shù)男Ч?/p>
同時(shí)Llama2-70B和13B分別獲得第二和第三名,這表明LLM在交通信號(hào)控制任務(wù)中也遵循了規(guī)模化定律(scaling law)。
令人驚訝的是,ChatGPT-3.5的表現(xiàn)最不理想。
泛化性的比較
該研究首先測(cè)試了不同方法的可遷移性。標(biāo)有“-T”的模型是在不同的道路網(wǎng)絡(luò)上預(yù)訓(xùn)練得到的(例如,使用在濟(jì)南預(yù)訓(xùn)練的模型在杭州數(shù)據(jù)集上評(píng)估可遷移性)。反之則在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。
該研究觀察到強(qiáng)化學(xué)習(xí)方法在遷移后性能明顯下降,尤其在濟(jì)南1和杭州1數(shù)據(jù)集中表現(xiàn)尤為明顯。相反,LLMLight(LightGPT)始終表現(xiàn)出優(yōu)越的性能,并在所有數(shù)據(jù)集上展現(xiàn)出優(yōu)異的可遷移性。
之后該研究分析了不同方法的可擴(kuò)展性,測(cè)試它們?cè)趹?yīng)用于規(guī)模更大的路網(wǎng)時(shí)的性能。
可以觀察到,大多數(shù)強(qiáng)化學(xué)習(xí)方法發(fā)生了顯著性能下降,甚至表現(xiàn)出比啟發(fā)式方法Maxpressure更差的性能。雖然最先進(jìn)的強(qiáng)化學(xué)習(xí)方法在平均旅行時(shí)間(ATT)上與LLMLight(LightGPT)相當(dāng),但值得注意的是,它們的決策會(huì)導(dǎo)致最高延長(zhǎng)57.80%的等待時(shí)間(AWT)。
這一結(jié)果表明,強(qiáng)化學(xué)習(xí)方法側(cè)重于優(yōu)化排隊(duì)車輛的總數(shù),但可能會(huì)以犧牲少部分隊(duì)列的等待時(shí)間為代價(jià)。
在實(shí)際場(chǎng)景中,等待時(shí)間的重要性不容忽視。相比之下,LLMLight可以同時(shí)確保最短的旅行時(shí)間和等待時(shí)間,體現(xiàn)了其拓展到規(guī)模更大的路網(wǎng)時(shí)的優(yōu)良的可擴(kuò)展性和適用性。
最后該研究為了探討了在極端擁堵情況下不同模型的性能,在濟(jì)南和杭州的路網(wǎng)上生成了兩個(gè)合成交通流數(shù)據(jù)集,其流量相比原始數(shù)據(jù)集增加了約四倍。
與可擴(kuò)展性實(shí)驗(yàn)類似,強(qiáng)化學(xué)習(xí)方法也表現(xiàn)出顯著的性能下降,表現(xiàn)出比Maxpressure更差的結(jié)果。
相比之下,LLMLight(LightGPT)始終表現(xiàn)出卓越的性能,體現(xiàn)了其在更加繁重的交通條件下的穩(wěn)健性和實(shí)用性。
可解釋性分析
為了評(píng)估LLMLight的可解釋性,研究人員在杭州數(shù)據(jù)集上進(jìn)行了一個(gè)案例模擬。
在這個(gè)模擬場(chǎng)景中,北部路段出現(xiàn)了嚴(yán)重?fù)矶?,表現(xiàn)為排隊(duì)的車輛出現(xiàn)積壓。
下圖詳細(xì)展示了LightGPT在此路況下的推理分析過程。
它以理解任務(wù)開始,并分析目標(biāo)交叉口的交通情況以進(jìn)行決策推理。隨后,它明確信號(hào)燈NLSL為最優(yōu)的選擇。
與強(qiáng)化學(xué)習(xí)方法不同,LLMLight不僅在制定有效的控制策略方面表現(xiàn)出色,而且還能為每個(gè)決策提供其背后的詳細(xì)解釋。這一獨(dú)特特征增強(qiáng)了LLMLight的透明度和可解釋性,有助于研究人員更全面地理解其決策行為。
最后,研究人員表示,LLMLight的下一步研究將著眼于融合多模態(tài)信息及群體協(xié)同。
多模態(tài)大模型可以直接從端到端地提取路口的交通擁堵信息,使模型能夠自行探索可用的視覺特征,進(jìn)而自我優(yōu)化出更優(yōu)的決策。
而群體協(xié)同則能夠?qū)崿F(xiàn)臨近路口、車輛和智能體之間的信息交換,從而獲得全局信息,最終達(dá)到優(yōu)化整體路網(wǎng)的交通效率的目的。
論文鏈接:https://arxiv.org/abs/2312.16044
代碼鏈接:https://github.com/usail-hkust/LLMTSCS
主頁鏈接:https://gungnir2099.github.io/LLMLight-Page/
模型權(quán)重鏈接:https://huggingface.co/USAIL-HKUSTGZ/LLMLight-LightGPT